亚洲成色777777女色窝,777亚洲妇女,色吧亚洲日本,亚洲少妇视频

面向?qū)W術(shù)資源的術(shù)語區(qū)分能力的測度方法研究

摘要:改進索引術(shù)語質(zhì)量的衡量方法可以有效提高IR系統(tǒng)的檢索效率,但術(shù)語的固有屬性易受文檔長度影響,難以全面衡量術(shù)語質(zhì)量。對此,本文從術(shù)語內(nèi)在的區(qū)分性出發(fā),借鑒詞袋模型的基本思想,提出了術(shù)語區(qū)分能力(term discriminative capacity,TDC)這一理論及3種不同的計算方法。本文還采集了Web of Science的3個子數(shù)據(jù)庫中包含4個著錄項的900條記錄作為實驗數(shù)據(jù),來實現(xiàn)TDC的大規(guī)模計算,并觀察3種算法在實踐中的差異。經(jīng)過實驗分析得出,計算術(shù)語區(qū)分能力的最佳方法為TDC-T,該算法在多個方面表現(xiàn)穩(wěn)定,且不受DF值的影響,可以作為衡量術(shù)語質(zhì)量的全新指標(biāo),記為TDC。但是本研究所選取的A&HCI數(shù)據(jù)庫的記錄較少,這或許會造成另兩個領(lǐng)域計算結(jié)果的失衡。

關(guān)鍵詞:
  • 索引術(shù)語  
  • 詞袋模型  
  • 術(shù)語區(qū)分能力  
  • 術(shù)語空間密度  
  • 術(shù)語質(zhì)量評價  
作者:
王昊; 唐慧慧; 張海潮; 張進; 張紫玄
單位:
南京大學(xué)信息管理學(xué)院; 南京210023; 江蘇省數(shù)據(jù)工程與知識服務(wù)重點實驗室; 南京210023; 威斯康星大學(xué)密爾沃基分校信息研究學(xué)院; 密爾沃基53201
刊名:
情報學(xué)報

注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社

期刊名稱:情報學(xué)報

情報學(xué)報緊跟學(xué)術(shù)前沿,緊貼讀者,國內(nèi)刊號為:11-2257/G3。堅持指導(dǎo)性與實用性相結(jié)合的原則,創(chuàng)辦于1982年,雜志在全國同類期刊中發(fā)行數(shù)量名列前茅。