[發(fā)明專利]一種基于有監(jiān)督主題模型的文本分類方法及系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201811398232.1 | 申請(qǐng)日: | 2018-11-22 |
| 公開(kāi)(公告)號(hào): | CN109408641B | 公開(kāi)(公告)日: | 2020-06-02 |
| 發(fā)明(設(shè)計(jì))人: | 唐煥玲;竇全勝;于立萍;宋英杰;魯眀羽 | 申請(qǐng)(專利權(quán))人: | 山東工商學(xué)院 |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35;G06F16/332;G06K9/62 |
| 代理公司: | 濟(jì)南圣達(dá)知識(shí)產(chǎn)權(quán)代理有限公司 37221 | 代理人: | 張慶騫 |
| 地址: | 264026 山東*** | 國(guó)省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 監(jiān)督 主題 模型 文本 分類 方法 系統(tǒng) | ||
本公開(kāi)提供了一種基于有監(jiān)督主題模型的文本分類方法及系統(tǒng)。其中,一種基于有監(jiān)督主題模型的文本分類方法,包括:構(gòu)建SLDA?TC文本分類模型;在訓(xùn)練SLDA?TC文本分類模型的過(guò)程中,按照SLDA?TC?Gibbs算法對(duì)每個(gè)詞的隱含主題進(jìn)行采樣,且只從與該詞所在文本類別標(biāo)簽相同的其它訓(xùn)練文本中進(jìn)行隱含主題采樣;在確定每個(gè)詞的隱含主題之后,通過(guò)統(tǒng)計(jì)頻次,計(jì)算得到文本?主題概率分布、主題?詞概率分布和主題?類別概率分布;建立主題與類別之間的準(zhǔn)確映射;將待測(cè)文本輸入至訓(xùn)練生成的SLDA?TC文本分類模型,推斷出待測(cè)文本的主題,進(jìn)而預(yù)測(cè)文本的類別。
技術(shù)領(lǐng)域
本公開(kāi)涉及數(shù)據(jù)分類領(lǐng)域,尤其涉及一種基于有監(jiān)督主題模型的文本分類方法及系統(tǒng)。
背景技術(shù)
本部分的陳述僅僅是提供了與本公開(kāi)相關(guān)的背景技術(shù)信息,不必然構(gòu)成在先技術(shù)。
文本表示是文本挖掘的重要步驟,目前最廣泛的文本表示方法是詞袋法(Bag-of-word,BOW)。詞袋法將一篇文本看作是詞的集合,并假設(shè)每個(gè)詞的出現(xiàn)是獨(dú)立的,不依賴于其它詞,且忽略詞序、句法等信息?;贐OW,一篇文本用一個(gè)n維向量表示,每一維對(duì)應(yīng)一個(gè)詞,通常是該詞的頻度相關(guān)的權(quán)重,這就是最常用的是向量空間模型(vector spacemodel,VSM)。由于自然語(yǔ)言的復(fù)雜性,文本表示存在“維數(shù)災(zāi)難”、“稀疏性”、“語(yǔ)義丟失”等諸多問(wèn)題。詞袋法忽略詞序、句法等信息,使得詞的語(yǔ)義信息難以抽取和量化,文本的語(yǔ)義表示目前仍是非常困難的。
Mikolov等人提出的word2vec模型,是一種詞向量的訓(xùn)練方法,利用詞的上下文信息將一個(gè)詞轉(zhuǎn)化成一個(gè)低維實(shí)數(shù)向量,越相似的詞在向量空間中越接近。word2vec模型訓(xùn)練輸出的是每個(gè)詞的詞向量,文本的所有詞的詞向量形成文本向量?;趙ord2vec模型訓(xùn)練的詞向量文本輸入深度神經(jīng)網(wǎng)絡(luò),成功用于中文分詞、POS tagging、情感分類、句法依存關(guān)系等方面。word2vec模型能夠解決“稀疏性”問(wèn)題,雖然word2vec能夠量化詞與詞的相似度,但并不能解決文本的“語(yǔ)義丟失”和“維度災(zāi)難”問(wèn)題。
主題模型(topic model)是可用于解決“維度災(zāi)難”、“稀疏性”的一種方法,而且能夠在一定程度上抽取詞的語(yǔ)義信息。主題模型起源于隱性語(yǔ)義索引(Latent SemanticIndexing,LSI),以及由Hofmann提出的概率隱性語(yǔ)義索引(probabilistic LatentSemantic Indexing,pLSI)。在pLSI基礎(chǔ)上,Blei等人提出了LDA(Latent DirichletAllocation)主題模型。LDA中主題看作是詞的概率分布,語(yǔ)義相近的詞,通過(guò)隱含主題建立關(guān)聯(lián),能夠從文本中抽取出語(yǔ)義信息,將文本表示從高維詞空間變換到低維主題空間。主題模型直接或擴(kuò)展使用在自然語(yǔ)言處理領(lǐng)域,如聚類和分類、詞義消歧、情感分析等,圖像處理領(lǐng)域的目標(biāo)發(fā)現(xiàn)與定位、圖像分割等任務(wù)。
LDA主題模型將文本表示從高維的詞空間變換到低維的主題空間,然后采用KNN、Naive Bayesian、SVM等算法直接分類,其效果并不好。原因在于LDA主題模型是無(wú)監(jiān)督學(xué)習(xí),不考慮文本的類別,并沒(méi)有利用訓(xùn)練文本已標(biāo)注的類別這一重要信息。
現(xiàn)有的改進(jìn)方法,如Li等人提出了Labled-LDA模型,發(fā)明人發(fā)現(xiàn)該模型針對(duì)每類文檔訓(xùn)練一個(gè)LDA模型,需要估計(jì)的參數(shù)增加了多倍,增加了模型的復(fù)雜性。
發(fā)明內(nèi)容
根據(jù)本公開(kāi)的一個(gè)或多個(gè)實(shí)施例的一個(gè)方面,提供一種基于有監(jiān)督主題模型的文本分類方法,其能夠識(shí)別主題-類別之間的語(yǔ)義關(guān)系,建立主題與類別的精確映射。
本公開(kāi)的一個(gè)或多個(gè)實(shí)施例,提供的一種基于有監(jiān)督主題模型的文本分類方法,包括:
構(gòu)建SLDA-TC文本分類模型,SLDA-TC文本分類模型的訓(xùn)練文檔集的每個(gè)文檔帶有類別標(biāo)簽;SLDA-TC文本分類模型中需要估計(jì)的參數(shù)不僅包括文本-主題概率分布、主題-詞概率分布,還包括主題-類別概率分布;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于山東工商學(xué)院,未經(jīng)山東工商學(xué)院許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811398232.1/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 在即時(shí)通信中提供即時(shí)監(jiān)督功能的方法及系統(tǒng)
- 一種監(jiān)督事件的生成裝置
- 一種資產(chǎn)托管監(jiān)督任務(wù)的處理方法及裝置
- 一種監(jiān)督方法及裝置
- 基于自監(jiān)督學(xué)習(xí)的標(biāo)簽比例學(xué)習(xí)模型的訓(xùn)練方法和設(shè)備
- 一種衛(wèi)生監(jiān)督對(duì)象尋址方法、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種機(jī)器人表情調(diào)用方法和家用機(jī)器人
- 計(jì)算機(jī)視覺(jué)訓(xùn)練系統(tǒng)和用于訓(xùn)練計(jì)算機(jī)視覺(jué)系統(tǒng)的方法
- 一種基于廠區(qū)智能管理系統(tǒng)的工廠設(shè)備監(jiān)督系統(tǒng)
- 信息化綜合監(jiān)督系統(tǒng)及方法





