亚洲午夜久久久久久久久电影院,午夜欧美激情,国产一区二区三区四区二区

基于通用知識庫的地理實體開放關(guān)系過濾方法

摘要：文本數(shù)據(jù)為地理知識服務(wù)提供了海量資源。面向文本數(shù)據(jù)的地理實體關(guān)系抽取是地理知識圖譜構(gòu)建的核心技術(shù),直接影響地理知識推理與服務(wù)的質(zhì)量。由于文本數(shù)據(jù)不可避免地含有噪聲,從文本中抽取的地理實體關(guān)系需要質(zhì)量評價和信息過濾。本文提出一種基于通用知識庫的地理實體關(guān)系過濾方法,針對已抽取的地理實體關(guān)系從中篩選出高質(zhì)量的結(jié)果:先利用"本體知識"、"事實知識"和"同義詞知識"構(gòu)建地理關(guān)系知識庫,作為信息過濾的參照數(shù)據(jù);再基于分布式向量表示模型度量已抽取的地理實體關(guān)系與參照數(shù)據(jù)之間的語義相似性,以提高地理知識圖譜的豐度與鮮度。實驗結(jié)果表明,相比業(yè)界流行的"Stanford OpenIE"工具,本文所提出的方法可將置信度區(qū)間[0, 0.2]和[0.8, 1]的MSE(Mean Square Error)從59.27%降至3.94%,AUC(Area Under the ROC Curve)從0.51提升至0.89。

關(guān)鍵詞：

文本數(shù)據(jù)
地理實體關(guān)系抽取
地理知識圖譜構(gòu)建
通用知識庫
開放關(guān)系抽取
地理信息質(zhì)量評價
信息過濾

作者：

高嘉良; 余麗; 仇培元; 陸鋒

單位：

中國科學(xué)院地理科學(xué)與資源研究所資源與環(huán)境信息系統(tǒng)國家重點實驗室; 北京100101; 中國科學(xué)院大學(xué); 北京100049; 中國科學(xué)院文獻情報中心; 北京100190; 江蘇省地理信息資源開發(fā)與利用協(xié)同創(chuàng)新中心; 南京210023

刊名：

地球信息科學(xué)學(xué)報

注：因版權(quán)方要求，不能公開全文，如需全文，請咨詢雜志社

投稿咨詢免費咨詢雜志訂閱