摘要:領(lǐng)域內(nèi)命名實體識別通常面臨領(lǐng)域內(nèi)標注數(shù)據(jù)缺乏以及由于實體名稱多樣性導致的同一文檔中實體標注不一致等問題.針對以上問題,利用生成式對抗網(wǎng)絡(luò)(generative adversarial network, GAN)可以生成數(shù)據(jù)的特點,將生成式對抗網(wǎng)絡(luò)與BiLSTM-Attention-CRF模型相結(jié)合.首先以BiLSTM-Attention作為生成式對抗網(wǎng)絡(luò)的生成器模型,以CNN作為判別器模型,從眾包標注數(shù)據(jù)集中整合出與專家標注數(shù)據(jù)分布一致的正樣本標注數(shù)據(jù)來解決領(lǐng)域內(nèi)標注數(shù)據(jù)缺乏的問題;然后通過在BiLSTM-Attention-CRF模型中引入文檔層面的全局向量,計算每個單詞與該全局向量的關(guān)系得出其新的特征表示以解決由于實體名稱多樣化造成的同一文檔中實體標注不一致問題;最后,在基于信息安全領(lǐng)域眾包標注數(shù)據(jù)集上的實驗結(jié)果表明,該模型在各項指標上顯著優(yōu)于同類其他模型方法.
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社。
計算機研究與發(fā)展雜志, 月刊,本刊重視學術(shù)導向,堅持科學性、學術(shù)性、先進性、創(chuàng)新性,刊載內(nèi)容涉及的欄目:綜述、計算機技術(shù)、計算機網(wǎng)絡(luò)、人工智能、計算機軟件、計算機應(yīng)用等。于1958年經(jīng)新聞總署批準的正規(guī)刊物。