[發(fā)明專利]一種文檔主題確定方法及裝置有效
| 申請?zhí)枺?/td> | 201710301661.1 | 申請日: | 2017-05-02 |
| 公開(公告)號: | CN107193892B | 公開(公告)日: | 2019-08-13 |
| 發(fā)明(設(shè)計)人: | 趙耕弘;張霞;趙立軍;崔朝輝 | 申請(專利權(quán))人: | 東軟集團股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F17/27 |
| 代理公司: | 北京集佳知識產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 劉曉菲;王寶筠 |
| 地址: | 110179 遼*** | 國省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 目標(biāo)文檔 條件概率 標(biāo)簽 目標(biāo)單詞 單詞 集合 詞頻 單詞概率 單詞集合 文檔主題 訓(xùn)練文檔集合 方法和裝置 查找 標(biāo)簽集合 申請 | ||
本申請實施例公開了一種文檔主題確定方法和裝置,實現(xiàn)對目標(biāo)文檔主題的確定。該方法預(yù)先根據(jù)Labeled LDA模型對訓(xùn)練文檔集合、訓(xùn)練單詞集合和標(biāo)簽集合進行訓(xùn)練,得到“單詞?標(biāo)簽”條件概率集合,根據(jù)所述訓(xùn)練單詞集合得到單詞概率集合;然后獲取待確定主題的目標(biāo)文檔,以及所述目標(biāo)文檔中的目標(biāo)單詞;從所述“單詞?標(biāo)簽”條件概率集合中,查找所述目標(biāo)單詞對應(yīng)的“單詞?標(biāo)簽”條件概率;從所述單詞概率集合中,查找所述目標(biāo)單詞對應(yīng)的詞頻;根據(jù)目標(biāo)單詞對應(yīng)的“單詞?標(biāo)簽”條件概率和詞頻,得到所述目標(biāo)文檔對應(yīng)的“標(biāo)簽?目標(biāo)文檔”條件概率;根據(jù)所述目標(biāo)文檔對應(yīng)的“標(biāo)簽?目標(biāo)文檔”條件概率確定所述目標(biāo)文檔的主題。
技術(shù)領(lǐng)域
本申請涉及大數(shù)據(jù)領(lǐng)域,尤其涉及一種文檔主題確定方法及裝置。
背景技術(shù)
隨著信息技術(shù)的飛速發(fā)展,信息傳輸?shù)钠款i已被打破,人們可以方便的接觸到海量的信息內(nèi)容,如何從中快速的了解信息內(nèi)容,成為當(dāng)前智能信息處理發(fā)展的方向和技術(shù)研究的熱點。特別是隨著互聯(lián)網(wǎng)上文檔信息的急劇膨脹,面對大量的文檔信息,如何能夠通過對文檔進行歸類,使得用戶能夠盡快的根據(jù)文檔的類別找到感興趣文檔,是目前對文檔處理的核心內(nèi)容。
文檔的主題是對文檔進行歸類的依據(jù)。那么,如何確定一篇文檔的主題是目前需要解決的問題。
發(fā)明內(nèi)容
為了解決現(xiàn)有技術(shù)存在的技術(shù)問題,本申請?zhí)峁┮环N文檔主題確定方法及裝置,實現(xiàn)確定文檔主題的目的。
本申請?zhí)峁┝艘环N文檔主題確定方法,
預(yù)先根據(jù)Labeled LDA模型對訓(xùn)練文檔集合、訓(xùn)練單詞集合和標(biāo)簽集合進行訓(xùn)練,得到“單詞-標(biāo)簽”條件概率集合,根據(jù)所述訓(xùn)練單詞集合得到單詞概率集合;所述訓(xùn)練文檔集合為訓(xùn)練文檔的集合,所述訓(xùn)練文檔為攜帶有標(biāo)簽的文檔,所述訓(xùn)練單詞集合為根據(jù)所述訓(xùn)練文檔得到的訓(xùn)練單詞的集合,所述標(biāo)簽集合為所述標(biāo)簽的集合;所述“單詞-標(biāo)簽”條件概率集合中包括在所述標(biāo)簽集合中隨機選擇的標(biāo)簽分別為各個標(biāo)簽的條件下,各個訓(xùn)練單詞在語義上分別表達(dá)所述各個標(biāo)簽的概率;所述單詞概率集合包括每個訓(xùn)練單詞分別在所述訓(xùn)練單詞集合中的詞頻;
所述方法包括:
獲取待確定主題的目標(biāo)文檔,以及所述目標(biāo)文檔中的目標(biāo)單詞;
從所述“單詞-標(biāo)簽”條件概率集合中,查找所述目標(biāo)單詞對應(yīng)的“單詞-標(biāo)簽”條件概率,所述目標(biāo)單詞對應(yīng)的“單詞-標(biāo)簽”條件概率包括在所述標(biāo)簽集合中隨機選擇的標(biāo)簽分別為各個標(biāo)簽的條件下,所述目標(biāo)單詞在語義上分別表達(dá)所述各個標(biāo)簽的概率;
從所述單詞概率集合中,查找所述目標(biāo)單詞對應(yīng)的詞頻,所述目標(biāo)單詞對應(yīng)的詞頻為所述目標(biāo)單詞在所述訓(xùn)練單詞集合中的詞頻;
根據(jù)目標(biāo)單詞對應(yīng)的“單詞-標(biāo)簽”條件概率和詞頻,得到所述目標(biāo)文檔對應(yīng)的“標(biāo)簽-目標(biāo)文檔”條件概率,所述“標(biāo)簽-目標(biāo)文檔”條件概率為在隨機選擇的文檔為目標(biāo)文檔的條件下,所述各個標(biāo)簽是所述目標(biāo)文檔的標(biāo)簽的概率;
根據(jù)所述目標(biāo)文檔對應(yīng)的“標(biāo)簽-目標(biāo)文檔”條件概率確定所述目標(biāo)文檔的主題。
可選的,所述根據(jù)目標(biāo)單詞對應(yīng)的“單詞-標(biāo)簽”條件概率和詞頻,得到所述目標(biāo)文檔對應(yīng)的“標(biāo)簽-目標(biāo)文檔”條件概率包括:
根據(jù)所述目標(biāo)單詞對應(yīng)的“單詞-標(biāo)簽”條件概率、所述目標(biāo)單詞的詞頻和每個標(biāo)簽的概率,得到每個標(biāo)簽的對應(yīng)的“標(biāo)簽-單詞”條件概率,所述“標(biāo)簽-單詞”條件概率為在所述訓(xùn)練集合中隨機選擇的訓(xùn)練單詞為所述目標(biāo)單詞的條件下,所述目標(biāo)單詞在語義上分別表達(dá)所述每個標(biāo)簽的概率;
根據(jù)所述每個標(biāo)簽的“標(biāo)簽-單詞”條件概率得到所述目標(biāo)文檔對應(yīng)的“標(biāo)簽-目標(biāo)文檔”條件概率。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于東軟集團股份有限公司,未經(jīng)東軟集團股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710301661.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





