一、美國(guó)seer數(shù)據(jù)庫(kù)怎么用
SEER數(shù)據(jù)庫(kù)是臨床常用的公共數(shù)據(jù)庫(kù),它收錄了大量的臨床回顧性研究資料,數(shù)據(jù)獲取方便并且公開(kāi)免費(fèi),因而深受科研工作者的喜愛(ài)。里面包括各式各樣的腫瘤類型,如肺癌、乳腺癌、胃癌、結(jié)直腸癌、前列腺癌等等。
數(shù)據(jù)庫(kù)的使用權(quán)限
1.進(jìn)入官網(wǎng),【SEER Data&Software】<【How to Request Data Access】
2.點(diǎn)擊【Continue to Request Form】
3.機(jī)構(gòu)賬戶點(diǎn)擊左邊,非機(jī)構(gòu)賬戶填寫(xiě)好郵箱后點(diǎn)擊右邊(我們主要介紹非機(jī)構(gòu)賬戶的申請(qǐng)方法)。
4.信息填寫(xiě)好后點(diǎn)擊【Sumbit】,之后 SEER 會(huì)發(fā)一封郵件到你注冊(cè)的郵箱,點(diǎn)擊鏈接。
5.信息填寫(xiě)好后點(diǎn)擊【Sumbit】,之后 SEER 會(huì)發(fā)封郵件到你注冊(cè)的郵箱,點(diǎn)擊鏈接下載SEER*Stat。
6.點(diǎn)擊鏈接,信息填寫(xiě)好后點(diǎn)擊【Request Download】,之后 SEER會(huì)發(fā)3封郵件到你注冊(cè)的郵箱,分別是SEER*Stat下載地址,還有軟件登錄的賬戶密碼。
軟件常用功能介紹
使用前,記得先登錄,賬號(hào)密碼就是前面申請(qǐng)的。點(diǎn)擊紅框指示的表格按鈕,也就是【case listing session】,此時(shí)需要輸入賬號(hào)密碼。里面顯示了每個(gè)腫瘤患者的個(gè)人信息(如性別、年齡、TNM 分期等),常規(guī)發(fā)表 SEER 數(shù)據(jù)庫(kù)相關(guān)的文章,都是用這部分的數(shù)據(jù)。
延伸閱讀:
二、信息抽取是什么
信息抽取(infromation extraction)信息抽取是一種自動(dòng)化地從半結(jié)構(gòu)化和無(wú)結(jié)構(gòu)數(shù)據(jù)中抽取實(shí)體、關(guān)系以及實(shí)體屬性等結(jié)構(gòu)化信息的技術(shù)。關(guān)鍵技術(shù)包括:實(shí)體抽取、關(guān)系抽取和屬性抽取。
1、實(shí)體抽取,也稱為命名實(shí)體識(shí)別(named entity recognition,NER),是指從文本數(shù)據(jù)集中自動(dòng)識(shí)別出命名實(shí)體。
當(dāng)前主流技術(shù)為面向開(kāi)放域(open domain)的實(shí)體抽取。
2、關(guān)系抽取,為了得到語(yǔ)義信息,從相關(guān)語(yǔ)料中提取出實(shí)體之間的關(guān)聯(lián)關(guān)系,通過(guò)關(guān)系將實(shí)體聯(lián)系起來(lái),才能夠形成網(wǎng)狀的知識(shí)結(jié)構(gòu)。其技術(shù)研究已經(jīng)從早期的“人工構(gòu)造語(yǔ)法和語(yǔ)義規(guī)則”(模式匹配),“統(tǒng)計(jì)機(jī)器學(xué)習(xí)”發(fā)展到“面向開(kāi)放域的信息抽取方法”與“面向封閉領(lǐng)域的方法”相結(jié)合。
3、屬性抽取,目標(biāo)是從不同信息源中采集特定實(shí)體的屬性信息,如針對(duì)某個(gè)公眾人物,可以從網(wǎng)絡(luò)公開(kāi)信息中得到其昵稱、生日、國(guó)籍、教育背景等信息。采用數(shù)據(jù)挖掘的方法直接從文本中挖掘?qū)嶓w屬性和屬性值之間的關(guān)系模式,據(jù)此實(shí)現(xiàn)對(duì)屬性名和屬性值在文本中的定位。