Merge函數(shù)用法Python
Merge函數(shù)是Python中非常常用的函數(shù)之一,它可以將兩個或多個數(shù)據(jù)框按照一定的條件合并成一個新的數(shù)據(jù)框。在數(shù)據(jù)分析和處理中,經(jīng)常需要將不同數(shù)據(jù)源的數(shù)據(jù)進行整合,此時就可以使用merge函數(shù)來完成。
_x000D_Merge函數(shù)的基本用法如下:
_x000D_`python
_x000D_pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None,
_x000D_left_index=False, right_index=False, sort=True, suffixes=('_x', '_y'),
_x000D_copy=True, indicator=False, validate=None)
_x000D_ _x000D_其中,left和right表示需要合并的兩個數(shù)據(jù)框,how表示合并方式,on表示合并的列名,left_on和right_on表示左右數(shù)據(jù)框需要合并的列名,left_index和right_index表示是否以索引作為合并列,sort表示是否對合并后的數(shù)據(jù)框進行排序,suffixes表示重名列的后綴,copy表示是否復(fù)制數(shù)據(jù)框,indicator表示是否在合并后的數(shù)據(jù)框中添加一列指示合并方式,validate表示檢查合并的數(shù)據(jù)框是否合法。
_x000D_Merge函數(shù)的常用合并方式包括:
_x000D_- inner:內(nèi)連接,只保留兩個數(shù)據(jù)框中都存在的行;
_x000D_- outer:外連接,保留兩個數(shù)據(jù)框中所有的行,缺失值用NaN填充;
_x000D_- left:左連接,保留左側(cè)數(shù)據(jù)框的所有行,右側(cè)數(shù)據(jù)框中沒有的行用NaN填充;
_x000D_- right:右連接,保留右側(cè)數(shù)據(jù)框的所有行,左側(cè)數(shù)據(jù)框中沒有的行用NaN填充。
_x000D_Merge函數(shù)的應(yīng)用場景非常廣泛,比如:
_x000D_- 將兩個表格按照某一列合并;
_x000D_- 將兩個表格按照多列合并;
_x000D_- 將兩個表格按照索引合并;
_x000D_- 將兩個表格按照不同的列名合并。
_x000D_下面我們來看幾個具體的例子。
_x000D_案例一:按照一列合并
_x000D_假設(shè)我們有兩個數(shù)據(jù)框df1和df2,需要按照列名為key的列來合并,代碼如下:
_x000D_`python
_x000D_import pandas as pd
_x000D_df1 = pd.DataFrame({'key': ['A', 'B', 'C', 'D'], 'value': [1, 2, 3, 4]})
_x000D_df2 = pd.DataFrame({'key': ['B', 'D', 'E', 'F'], 'value': [5, 6, 7, 8]})
_x000D_result = pd.merge(df1, df2, on='key')
_x000D_print(result)
_x000D_ _x000D_輸出結(jié)果為:
_x000D_ _x000D_key value_x value_y
_x000D_0 B 2 5
_x000D_1 D 4 6
_x000D_ _x000D_可以看到,合并后的結(jié)果只包含df1和df2中key列相同的行。
_x000D_案例二:按照多列合并
_x000D_假設(shè)我們有兩個數(shù)據(jù)框df1和df2,需要按照列名為key1和key2的列來合并,代碼如下:
_x000D_`python
_x000D_import pandas as pd
_x000D_df1 = pd.DataFrame({'key1': ['A', 'B', 'C', 'D'], 'key2': ['X', 'Y', 'Z', 'W'], 'value': [1, 2, 3, 4]})
_x000D_df2 = pd.DataFrame({'key1': ['B', 'D', 'E', 'F'], 'key2': ['Y', 'W', 'X', 'Z'], 'value': [5, 6, 7, 8]})
_x000D_result = pd.merge(df1, df2, on=['key1', 'key2'])
_x000D_print(result)
_x000D_ _x000D_輸出結(jié)果為:
_x000D_ _x000D_key1 key2 value_x value_y
_x000D_0 D W 4 6
_x000D_ _x000D_可以看到,合并后的結(jié)果只包含df1和df2中key1和key2列都相同的行。
_x000D_案例三:按照索引合并
_x000D_假設(shè)我們有兩個數(shù)據(jù)框df1和df2,需要按照它們的索引來合并,代碼如下:
_x000D_`python
_x000D_import pandas as pd
_x000D_df1 = pd.DataFrame({'value': [1, 2, 3, 4]}, index=['A', 'B', 'C', 'D'])
_x000D_df2 = pd.DataFrame({'value': [5, 6, 7, 8]}, index=['B', 'D', 'E', 'F'])
_x000D_result = pd.merge(df1, df2, left_index=True, right_index=True)
_x000D_print(result)
_x000D_ _x000D_輸出結(jié)果為:
_x000D_ _x000D_value_x value_y
_x000D_B 2 5
_x000D_D 4 6
_x000D_ _x000D_可以看到,合并后的結(jié)果只包含df1和df2中索引相同的行。
_x000D_案例四:按照不同的列名合并
_x000D_假設(shè)我們有兩個數(shù)據(jù)框df1和df2,需要按照df1中的列名為key1,df2中的列名為key2來合并,代碼如下:
_x000D_`python
_x000D_import pandas as pd
_x000D_df1 = pd.DataFrame({'key1': ['A', 'B', 'C', 'D'], 'value': [1, 2, 3, 4]})
_x000D_df2 = pd.DataFrame({'key2': ['B', 'D', 'E', 'F'], 'value': [5, 6, 7, 8]})
_x000D_result = pd.merge(df1, df2, left_on='key1', right_on='key2')
_x000D_print(result)
_x000D_ _x000D_輸出結(jié)果為:
_x000D_ _x000D_key1 value_x key2 value_y
_x000D_0 B 2 B 5
_x000D_1 D 4 D 6
_x000D_ _x000D_可以看到,合并后的結(jié)果包含df1和df2中key1和key2列相同的行,并且將它們合并在一起。
_x000D_問答
_x000D_1.什么是merge函數(shù)?
_x000D_Merge函數(shù)是Python中非常常用的函數(shù)之一,它可以將兩個或多個數(shù)據(jù)框按照一定的條件合并成一個新的數(shù)據(jù)框。
_x000D_2.merge函數(shù)的常用合并方式有哪些?
_x000D_Merge函數(shù)的常用合并方式包括:inner、outer、left和right。
_x000D_3.merge函數(shù)的應(yīng)用場景有哪些?
_x000D_Merge函數(shù)的應(yīng)用場景非常廣泛,比如將兩個表格按照某一列合并、將兩個表格按照多列合并、將兩個表格按照索引合并、將兩個表格按照不同的列名合并等。
_x000D_4.如何按照一列合并數(shù)據(jù)框?
_x000D_可以使用merge函數(shù)的on參數(shù)來指定需要合并的列名。
_x000D_5.如何按照多列合并數(shù)據(jù)框?
_x000D_可以使用merge函數(shù)的on參數(shù)來指定需要合并的列名列表。
_x000D_6.如何按照索引合并數(shù)據(jù)框?
_x000D_可以使用merge函數(shù)的left_index和right_index參數(shù)來指定是否以索引作為合并列。
_x000D_7.如何按照不同的列名合并數(shù)據(jù)框?
_x000D_可以使用merge函數(shù)的left_on和right_on參數(shù)來指定左右數(shù)據(jù)框需要合并的列名。
_x000D_