摘要:文本數(shù)據(jù)為地理知識服務(wù)提供了海量資源。面向文本數(shù)據(jù)的地理實體關(guān)系抽取是地理知識圖譜構(gòu)建的核心技術(shù),直接影響地理知識推理與服務(wù)的質(zhì)量。由于文本數(shù)據(jù)不可避免地含有噪聲,從文本中抽取的地理實體關(guān)系需要質(zhì)量評價和信息過濾。本文提出一種基于通用知識庫的地理實體關(guān)系過濾方法,針對已抽取的地理實體關(guān)系從中篩選出高質(zhì)量的結(jié)果:先利用"本體知識"、"事實知識"和"同義詞知識"構(gòu)建地理關(guān)系知識庫,作為信息過濾的參照數(shù)據(jù);再基于分布式向量表示模型度量已抽取的地理實體關(guān)系與參照數(shù)據(jù)之間的語義相似性,以提高地理知識圖譜的豐度與鮮度。實驗結(jié)果表明,相比業(yè)界流行的"Stanford OpenIE"工具,本文所提出的方法可將置信度區(qū)間[0, 0.2]和[0.8, 1]的MSE(Mean Square Error)從59.27%降至3.94%,AUC(Area Under the ROC Curve)從0.51提升至0.89。
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社