摘要:針對采用機器學(xué)習(xí)方法識別流式文檔結(jié)構(gòu)時語料庫稀少、語料標注復(fù)雜的問題,該文在研究文檔的邏輯結(jié)構(gòu)和編輯語義特征的基礎(chǔ)上,確立流式文檔邏輯結(jié)構(gòu)標注體系,并提出一種三段式的半自動文檔邏輯結(jié)構(gòu)標注方法:第一階段通過機助人工實現(xiàn)文檔元數(shù)據(jù)的分離式標注,第二階段自動重建邏輯結(jié)構(gòu),第三階段自動填充特征向量。實驗結(jié)果表明,該文提出的文檔邏輯結(jié)構(gòu)標注方法能夠節(jié)省人工成本、提高機器學(xué)習(xí)算法對文檔結(jié)構(gòu)識別的準確率與召回率,F值達到97.5%。
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社