摘要:Labeled-LDA模型引入了類別標(biāo)簽信息,較傳統(tǒng)的LDA主題模型改進了強制分配主題的問題,但Labeled-LDA模型仍存在一些問題,例如Labeled-LDA在訓(xùn)練主題模型之前沒有去除無用詞,在訓(xùn)練過程中沒有考慮詞與各類別的關(guān)聯(lián)度,且Labeled-LDA模型獲得的主題分布傾向于高頻詞,導(dǎo)致主題的表達(dá)能力降低等問題。本文提出WLabeled-LDA模型,在訓(xùn)練主題模型之前使用卡方特征來選出好的特征詞,訓(xùn)練主題模型時用獲得的詞對類別的卡方值進行主題模型加權(quán),并使用高斯密度函數(shù)對特征詞加權(quán)來降低高頻詞對主題表達(dá)能力的影響。實驗結(jié)果顯示,此方法能使分類的準(zhǔn)確率和召回率得到一定的提高,說明其具有更好的分類效果。
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社。
長春師范學(xué)院學(xué)報雜志, 月刊,本刊重視學(xué)術(shù)導(dǎo)向,堅持科學(xué)性、學(xué)術(shù)性、先進性、創(chuàng)新性,刊載內(nèi)容涉及的欄目:數(shù)學(xué)研究、物理學(xué)研究、計算機技術(shù)與信息科學(xué)研究、生命科學(xué)研究、化學(xué)研究、體育科學(xué)研究、圖書館學(xué)研究等等。于1982年經(jīng)新聞總署批準(zhǔn)的正規(guī)刊物。