摘要:改進索引術(shù)語質(zhì)量的衡量方法可以有效提高IR系統(tǒng)的檢索效率,但術(shù)語的固有屬性易受文檔長度影響,難以全面衡量術(shù)語質(zhì)量。對此,本文從術(shù)語內(nèi)在的區(qū)分性出發(fā),借鑒詞袋模型的基本思想,提出了術(shù)語區(qū)分能力(term discriminative capacity,TDC)這一理論及3種不同的計算方法。本文還采集了Web of Science的3個子數(shù)據(jù)庫中包含4個著錄項的900條記錄作為實驗數(shù)據(jù),來實現(xiàn)TDC的大規(guī)模計算,并觀察3種算法在實踐中的差異。經(jīng)過實驗分析得出,計算術(shù)語區(qū)分能力的最佳方法為TDC-T,該算法在多個方面表現(xiàn)穩(wěn)定,且不受DF值的影響,可以作為衡量術(shù)語質(zhì)量的全新指標(biāo),記為TDC。但是本研究所選取的A&HCI數(shù)據(jù)庫的記錄較少,這或許會造成另兩個領(lǐng)域計算結(jié)果的失衡。
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社