摘要:在中文關(guān)系抽取任務(wù)中,數(shù)據(jù)稀疏和噪聲傳播問題是其研究難點(diǎn)?;诖?提出了在文本特征組織方面融合位置特征、最短依存特征和N-gram特征等多元特征,并提升關(guān)鍵性特征的權(quán)重,以緩解傳統(tǒng)詞特征的數(shù)據(jù)稀疏問題。這種組合特征進(jìn)一步改善了文本中噪聲傳播問題,提高了句法特征在稀疏性問題下的可靠性。此外,在傳統(tǒng)的雙向LSTM神經(jīng)網(wǎng)絡(luò)中加入注意力機(jī)制,使模型更關(guān)注較為重要的特征,降低噪聲對抽取任務(wù)的影響。在人物關(guān)系公開語料集上進(jìn)行實(shí)驗(yàn),結(jié)果表明采用該方法進(jìn)行中文文本關(guān)系抽取的效果較好,并為信息抽取、知識(shí)圖譜等領(lǐng)域提供了方法支持。
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社