摘要:傳統(tǒng)的基于詞邊界劃分的中文分詞已經(jīng)難以滿足實(shí)際應(yīng)用的需要.通過深入分析詞的內(nèi)部結(jié)構(gòu),提出了一種基于條件隨機(jī)場(chǎng)的詞結(jié)構(gòu)分析方法.根據(jù)偽未登錄詞(POOV)組成成分的特點(diǎn)及詞的內(nèi)部子結(jié)構(gòu)表示,提出了詞的結(jié)構(gòu)特征來(lái)提高未登錄詞(OOV)的識(shí)別率及詞結(jié)構(gòu)的識(shí)別性能.從詞的內(nèi)部結(jié)構(gòu)表示形式推導(dǎo)出一般化的詞結(jié)構(gòu)標(biāo)記集,很好地統(tǒng)一了詞邊界標(biāo)記和詞內(nèi)部結(jié)構(gòu)標(biāo)記.它不僅適用于傳統(tǒng)的中文分詞任務(wù)中詞邊界的標(biāo)注,而且也適用于詞結(jié)構(gòu)分析任務(wù)中詞的內(nèi)部結(jié)構(gòu)的標(biāo)注.該方法能夠同時(shí)分析得到詞的邊界和內(nèi)部結(jié)構(gòu)信息,解決了語(yǔ)料庫(kù)之間分詞標(biāo)準(zhǔn)不一致的問題,滿足了應(yīng)用的不同需求.實(shí)驗(yàn)結(jié)果表明,該方法在整體性能和各層次結(jié)構(gòu)的識(shí)別上都比現(xiàn)有方法有所提高.
注:因版權(quán)方要求,不能公開全文,如需全文,請(qǐng)咨詢雜志社