摘要:學術文獻是科學進步與發(fā)展的載體,各種元數(shù)據(jù)信息包括作者、論文、期刊以及這些實體之間的關系,具有重要的價值,如何精準構建學者用戶畫像是一個具有挑戰(zhàn)性的問題。早期的用戶畫像相對簡單,區(qū)分度以及可用性都不高。本文在“2017開放學術精準畫像大賽”TASK3的真實數(shù)據(jù)上,提取學者與期刊的關系和學者與論文的關系,設計關系模型并采用LSI降維技術以及文本相似度計算,對學者興趣標簽進行識別與評估,并進行數(shù)據(jù)可視化分析。實驗結果表明,使用本文提出的方法可準確有效的識別學者興趣標簽,準確率為P@1=92%、P@2=94%、P@3=98%。
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社