摘要:單篇文本的關(guān)鍵詞提取可應(yīng)用于網(wǎng)頁(yè)檢索、知識(shí)理解與文本分類等眾多領(lǐng)域。該文提出一種融合圖結(jié)構(gòu)與節(jié)點(diǎn)關(guān)聯(lián)的關(guān)鍵詞提取方法,能夠在脫離外部語(yǔ)料庫(kù)的情況下發(fā)現(xiàn)單篇文本的關(guān)鍵詞。首先,挖掘文本的頻繁封閉項(xiàng)集并生成強(qiáng)關(guān)聯(lián)規(guī)則集合;其次,取出強(qiáng)關(guān)聯(lián)規(guī)則集合中的規(guī)則頭與規(guī)則體作為節(jié)點(diǎn),節(jié)點(diǎn)之間有邊當(dāng)且僅當(dāng)彼此之間存在強(qiáng)關(guān)聯(lián)規(guī)則時(shí),邊權(quán)重定義為關(guān)聯(lián)規(guī)則的關(guān)聯(lián)度,將強(qiáng)關(guān)聯(lián)規(guī)則集合建模成關(guān)聯(lián)圖;再次,綜合考慮節(jié)點(diǎn)的圖結(jié)構(gòu)屬性、語(yǔ)義信息和彼此的關(guān)聯(lián)性,設(shè)計(jì)一種新的隨機(jī)游走算法計(jì)算節(jié)點(diǎn)的重要性分?jǐn)?shù);最后,為了避免抽取的詞項(xiàng)之間有語(yǔ)義包含關(guān)系,對(duì)節(jié)點(diǎn)進(jìn)行語(yǔ)義聚類并選取每個(gè)類的類中心作為關(guān)鍵詞提取結(jié)果。通過(guò)設(shè)計(jì)關(guān)聯(lián)圖模型參數(shù)的選取、關(guān)鍵詞的提取規(guī)模、不同算法對(duì)比3個(gè)實(shí)驗(yàn),在具有代表性的中英文數(shù)據(jù)上證明了該方法能夠有效提升關(guān)鍵詞提取的效果。
注:因版權(quán)方要求,不能公開(kāi)全文,如需全文,請(qǐng)咨詢雜志社