[發(fā)明專利]一種文檔主題確定方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201710301661.1 | 申請(qǐng)日: | 2017-05-02 |
| 公開(公告)號(hào): | CN107193892B | 公開(公告)日: | 2019-08-13 |
| 發(fā)明(設(shè)計(jì))人: | 趙耕弘;張霞;趙立軍;崔朝輝 | 申請(qǐng)(專利權(quán))人: | 東軟集團(tuán)股份有限公司 |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35;G06F17/27 |
| 代理公司: | 北京集佳知識(shí)產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 劉曉菲;王寶筠 |
| 地址: | 110179 遼*** | 國(guó)省代碼: | 遼寧;21 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 目標(biāo)文檔 條件概率 標(biāo)簽 目標(biāo)單詞 單詞 集合 詞頻 單詞概率 單詞集合 文檔主題 訓(xùn)練文檔集合 方法和裝置 查找 標(biāo)簽集合 申請(qǐng) | ||
1.一種文檔主題確定方法,其特征在于,
預(yù)先根據(jù)Labeled LDA模型對(duì)訓(xùn)練文檔集合、訓(xùn)練單詞集合和標(biāo)簽集合進(jìn)行訓(xùn)練,得到“單詞-標(biāo)簽”條件概率集合,根據(jù)所述訓(xùn)練單詞集合得到單詞概率集合;所述訓(xùn)練文檔集合為訓(xùn)練文檔的集合,所述訓(xùn)練文檔為攜帶有標(biāo)簽的文檔,所述訓(xùn)練單詞集合為根據(jù)所述訓(xùn)練文檔得到的訓(xùn)練單詞的集合,所述標(biāo)簽集合為所述標(biāo)簽的集合;所述“單詞-標(biāo)簽”條件概率集合中包括在所述標(biāo)簽集合中隨機(jī)選擇的標(biāo)簽分別為各個(gè)標(biāo)簽的條件下,各個(gè)訓(xùn)練單詞在語(yǔ)義上分別表達(dá)所述各個(gè)標(biāo)簽的概率;所述單詞概率集合包括每個(gè)訓(xùn)練單詞分別在所述訓(xùn)練單詞集合中的詞頻;
所述方法包括:
獲取待確定主題的目標(biāo)文檔,以及所述目標(biāo)文檔中的目標(biāo)單詞;
從所述“單詞-標(biāo)簽”條件概率集合中,查找所述目標(biāo)單詞對(duì)應(yīng)的“單詞-標(biāo)簽”條件概率,所述目標(biāo)單詞對(duì)應(yīng)的“單詞-標(biāo)簽”條件概率包括在所述標(biāo)簽集合中隨機(jī)選擇的標(biāo)簽分別為各個(gè)標(biāo)簽的條件下,所述目標(biāo)單詞在語(yǔ)義上分別表達(dá)所述各個(gè)標(biāo)簽的概率;
從所述單詞概率集合中,查找所述目標(biāo)單詞對(duì)應(yīng)的詞頻,所述目標(biāo)單詞對(duì)應(yīng)的詞頻為所述目標(biāo)單詞在所述訓(xùn)練單詞集合中的詞頻;
根據(jù)目標(biāo)單詞對(duì)應(yīng)的“單詞-標(biāo)簽”條件概率和詞頻,得到所述目標(biāo)文檔對(duì)應(yīng)的“標(biāo)簽-目標(biāo)文檔”條件概率,所述“標(biāo)簽-目標(biāo)文檔”條件概率為在隨機(jī)選擇的文檔為目標(biāo)文檔的條件下,所述各個(gè)標(biāo)簽是所述目標(biāo)文檔的標(biāo)簽的概率;
根據(jù)所述目標(biāo)文檔對(duì)應(yīng)的“標(biāo)簽-目標(biāo)文檔”條件概率確定所述目標(biāo)文檔的主題;
其中,所述根據(jù)目標(biāo)單詞對(duì)應(yīng)的“單詞-標(biāo)簽”條件概率和詞頻,得到所述目標(biāo)文檔對(duì)應(yīng)的“標(biāo)簽-目標(biāo)文檔”條件概率包括:
根據(jù)所述目標(biāo)單詞對(duì)應(yīng)的“單詞-標(biāo)簽”條件概率、所述目標(biāo)單詞的詞頻和每個(gè)標(biāo)簽的概率,得到每個(gè)標(biāo)簽的對(duì)應(yīng)的“標(biāo)簽-單詞”條件概率,所述“標(biāo)簽-單詞”條件概率為在所述訓(xùn)練單詞集合中隨機(jī)選擇的訓(xùn)練單詞為所述目標(biāo)單詞的條件下,所述目標(biāo)單詞在語(yǔ)義上分別表達(dá)所述每個(gè)標(biāo)簽的概率;所述每個(gè)標(biāo)簽的概率為每個(gè)標(biāo)簽在所述標(biāo)簽集合中出現(xiàn)的概率;
根據(jù)所述每個(gè)標(biāo)簽的“標(biāo)簽-單詞”條件概率得到所述目標(biāo)文檔對(duì)應(yīng)的“標(biāo)簽-目標(biāo)文檔”條件概率。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述每個(gè)標(biāo)簽的概率根據(jù)每個(gè)訓(xùn)練文檔對(duì)應(yīng)的“標(biāo)簽-文檔”條件概率和每個(gè)訓(xùn)練文檔的抽樣概率得到;所述“標(biāo)簽-文檔”條件概率包括在所述訓(xùn)練文檔集合中隨機(jī)選取各個(gè)訓(xùn)練文檔的條件下,所述各個(gè)標(biāo)簽分別是所述各個(gè)訓(xùn)練文檔的標(biāo)簽的概率。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述每個(gè)訓(xùn)練文檔的抽樣概率均為1。
4.根據(jù)權(quán)利要求1至3任意一項(xiàng)所述的方法,其特征在于,所述根據(jù)所述目標(biāo)文檔對(duì)應(yīng)的“標(biāo)簽-目標(biāo)文檔”條件概率確定所述目標(biāo)文檔的主題包括:
從所述目標(biāo)文檔對(duì)應(yīng)的所有的“標(biāo)簽-目標(biāo)文檔”條件概率中,選擇最大的條件概率對(duì)應(yīng)的標(biāo)簽確定為所述目標(biāo)文檔的主題。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于東軟集團(tuán)股份有限公司,未經(jīng)東軟集團(tuán)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710301661.1/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 目標(biāo)文檔檢測(cè)方法和設(shè)備
- 一種文檔生成方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種目標(biāo)文檔的確定方法及裝置
- 文檔展示方法、裝置、計(jì)算機(jī)設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 基于線性模型的文檔轉(zhuǎn)換方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 處理文檔的方法和裝置
- 在線文檔提交方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文檔資源的集成方法、裝置、存儲(chǔ)介質(zhì)和電子裝置
- 文檔操作錄制方法、文檔操作動(dòng)畫生成方法、裝置及設(shè)備
- 文檔加載方法、裝置、終端和存儲(chǔ)介質(zhì)
- 瀏覽器中關(guān)閉標(biāo)簽的裝置和方法
- 標(biāo)簽生成方法及標(biāo)簽生成裝置
- 一種帶有標(biāo)簽的電氣插座
- 標(biāo)簽檢測(cè)定位裝置及其標(biāo)簽制造設(shè)備
- 標(biāo)簽切割裝置及其標(biāo)簽加工機(jī)
- 基于樹形結(jié)構(gòu)的標(biāo)簽存儲(chǔ)方法及裝置
- 一種標(biāo)簽分離機(jī)構(gòu)
- 標(biāo)簽切割裝置及其標(biāo)簽加工機(jī)
- 標(biāo)簽檢測(cè)定位裝置及其標(biāo)簽制造設(shè)備
- 標(biāo)簽轉(zhuǎn)換處理方法、裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)
- 一種拼寫檢查方法及裝置
- 基于神經(jīng)機(jī)器翻譯系統(tǒng)的單詞預(yù)測(cè)方法及系統(tǒng)
- 一種文檔主題確定方法及裝置
- 一種查找單詞釋義的方法及電子設(shè)備
- 一種確定目標(biāo)單詞的拼讀分區(qū)的方法和電子設(shè)備
- 自然語(yǔ)言表示方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 數(shù)據(jù)處理方法、裝置及電子設(shè)備
- 信息的搜索糾錯(cuò)方法、計(jì)算設(shè)備及存儲(chǔ)介質(zhì)
- 語(yǔ)音信息處理方法、裝置及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置、電子設(shè)備和計(jì)算機(jī)可讀介質(zhì)





