摘要:針對(duì)現(xiàn)有的基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型通常都是對(duì)單一的語(yǔ)料庫(kù)進(jìn)行訓(xùn)練學(xué)習(xí),提出了一種大規(guī)模的多語(yǔ)料庫(kù)聯(lián)合學(xué)習(xí)的中文分詞方法。語(yǔ)料庫(kù)分別為簡(jiǎn)體中文數(shù)據(jù)集(PKU、MSRA、CTB6)和繁體中文數(shù)據(jù)集(CITYU、AS),每一個(gè)數(shù)據(jù)集輸入語(yǔ)句的句首和句尾分別添加一對(duì)標(biāo)志符。應(yīng)用BLSTM(雙向長(zhǎng)短時(shí)記憶模型)和CRF(條件隨機(jī)場(chǎng)模型)對(duì)數(shù)據(jù)集進(jìn)行單獨(dú)訓(xùn)練和多語(yǔ)料庫(kù)共同訓(xùn)練的實(shí)驗(yàn),結(jié)果表明大規(guī)模的多語(yǔ)料庫(kù)共同學(xué)習(xí)訓(xùn)練能取得良好的分詞效果。
注:因版權(quán)方要求,不能公開全文,如需全文,請(qǐng)咨詢雜志社