摘要:中文詞性標注具有重要的作用,它的準確性和標注速度直接影響到自然語言處理的后續(xù)任務.提出一種基于CNN(convolutional neural network)和LSTM(long-short term memory)混合模型進行中文詞性標注.該模型采用三層結(jié)構(gòu),用詞向量和CNN的滑動窗口特性產(chǎn)生詞語表示特征,LSTM的時序性來產(chǎn)生詞性標注的序列標簽.分別在PFR《人民日報》語料庫、CTB7.0和CoNLL09語料庫上對該模型進行測試,在未加入任何人工特征的條件下,對詞語進行詞性標注,詞性標注效果好于HMM(hidden Markov model)、MLP(multi-layer perceptron)、CNN和LSTM.
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社