摘要:中文詞性標(biāo)注具有重要的作用,它的準(zhǔn)確性和標(biāo)注速度直接影響到自然語言處理的后續(xù)任務(wù).提出一種基于CNN(convolutional neural network)和LSTM(long-short term memory)混合模型進行中文詞性標(biāo)注.該模型采用三層結(jié)構(gòu),用詞向量和CNN的滑動窗口特性產(chǎn)生詞語表示特征,LSTM的時序性來產(chǎn)生詞性標(biāo)注的序列標(biāo)簽.分別在PFR《人民日報》語料庫、CTB7.0和CoNLL09語料庫上對該模型進行測試,在未加入任何人工特征的條件下,對詞語進行詞性標(biāo)注,詞性標(biāo)注效果好于HMM(hidden Markov model)、MLP(multi-layer perceptron)、CNN和LSTM.
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社