摘要:目的當(dāng)前生物文獻(xiàn)挖掘工作的重心是改進(jìn)各挖掘模塊性能,以提升挖掘結(jié)果的可信度,但有很大比例的挖掘結(jié)果其文獻(xiàn)證據(jù)很少,為此本文提出一個(gè)利用Bing搜索引擎從海量Web數(shù)據(jù)中為文獻(xiàn)挖掘得到的生物實(shí)體關(guān)聯(lián)對(duì)提供補(bǔ)充證據(jù)的工具系統(tǒng)。方法利用現(xiàn)有文本挖掘技術(shù)從PubMed文獻(xiàn)中挖掘一批生物實(shí)體關(guān)聯(lián)對(duì),引入BingWeb搜索模塊,以生物實(shí)體名作為關(guān)鍵詞從Web中利用Bing開放搜索API得到一批搜索結(jié)果,將這些結(jié)果整理成新的數(shù)據(jù)源,最終從該新的數(shù)據(jù)源中挖掘得到一批來自Web的補(bǔ)充證據(jù)。結(jié)果本系統(tǒng)(bioinfo.ustc.edu.cn/NetRD)對(duì)文獻(xiàn)證據(jù)較少的生物實(shí)體關(guān)聯(lián)對(duì)提供了有效的補(bǔ)充證據(jù)支持,豐富了文獻(xiàn)挖掘結(jié)果最終的證據(jù)集。結(jié)論以Web數(shù)據(jù)作為補(bǔ)充數(shù)據(jù)源,能夠有效地為文獻(xiàn)證據(jù)很少的生物實(shí)體對(duì)提供證據(jù)補(bǔ)充,為相關(guān)研究者確認(rèn)兩個(gè)生物實(shí)體之間的關(guān)聯(lián)提供重要參考。
注:因版權(quán)方要求,不能公開全文,如需全文,請(qǐng)咨詢雜志社