不論是數據分析,數據可視化,還是數據挖掘,一切的一切全都是以數據作為最基礎的元素。利用Python進行數據分析,同樣最重要的一步就是如何將數據導入到Python中,然后才可以實現后面的數據分析、數據可視化、數據挖掘等。
在本期的Python學習中,我們將針對Python如何獲取外部數據做一個詳細的介紹:
讀取文本文件的數據
大家都知道,Python中pandas模塊是專門用來數據分析的一個強大工具,下面我們就來介紹pandas是如何讀取外部數據的。
In[1]:importpandasaspd
In[2]:mydata_txt=pd.read_csv('C:\\test_code.txt',sep='\t',encoding='utf-8')
對于中文的文本文件常容易因為編碼的問題而讀取失敗,正如上所示。遇到這樣的編碼問題該如何處置呢?解決辦法有兩種情況:
1)當原始文件txt或csv的數據不是uft8格式時,需要另存為utf8格式編碼;
2)如果原始的數據文件就是uft8格式,為了正常讀入,需要將read_csv函數的參數encoding設置為utf-8
將原始數據另存為utf8格式的數據,重新讀入txt數據
In[3]:mydata_txt=pd.read_csv('C:\\test.txt',sep='\t',encoding='utf-8')
In[4]:mydata_txt
csv文本文件是非常常用的一種數據存儲格式,而且其存儲量要比Excel電子表格大很多,下面我們就來看看如何利用Python讀取csv格式的數據文件:
In[5]:mydata_csv=pd.read_csv('C:\\test.csv',sep=',',encoding='utf-8')
In[6]:mydata_csv
如果你善于總結的話,你會發現,txt文件和csv文件均可以通過pandas模塊中的read_csv函數進行讀取。該函數有20多個參數,類似于R中的read.table函數,如果需要查看具體的參數詳情,可以查看幫助文檔:help(pandas.read_csv)。
讀取電子表格文件
這里所說的電子表格就是Excel表格,可以是xls的電子表格,也可以是xlsx的電子表格。在日常工作中,很多數據都是存放在Excel電子表格中的,如果我們需要使用Python對其進行分析或處理的話,第一步就是如何讀取Excel數據。下面我們來看看如果讀取Excel數據集:
In[7]:mydata_excel=pd.read_excel('C:\\test.xlsx',sep='\t',encoding='utf-8')
In[8]:mydata_excel
以上內容為大家介紹了python培訓之如何讀取數據,希望對大家有所幫助,如果想要了解更多Python相關知識,請關注IT培訓機構:千鋒教育。