[發(fā)明專利]一種主題詞挖掘方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 202011580178.X | 申請(qǐng)日: | 2020-12-28 |
| 公開(kāi)(公告)號(hào): | CN112784009B | 公開(kāi)(公告)日: | 2023-08-18 |
| 發(fā)明(設(shè)計(jì))人: | 熊永平;曹滔宇;朱承治;谷紀(jì)亭;徐翀 | 申請(qǐng)(專利權(quán))人: | 北京郵電大學(xué);國(guó)網(wǎng)浙江省電力有限公司 |
| 主分類號(hào): | G06F16/33 | 分類號(hào): | G06F16/33;G06F40/289;G06N3/0464;G06N3/0442 |
| 代理公司: | 北京風(fēng)雅頌專利代理有限公司 11403 | 代理人: | 王剛 |
| 地址: | 100876 *** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 主題詞 挖掘 方法 裝置 電子設(shè)備 存儲(chǔ) 介質(zhì) | ||
1.一種主題詞挖掘方法,其特征在于,包括:
獲取文本數(shù)據(jù);
基于語(yǔ)言模型過(guò)濾所述文本數(shù)據(jù)以確定候選詞集合;
基于無(wú)監(jiān)督算法和預(yù)測(cè)模型篩選所述候選詞集合以確定所述候選詞集合的重要度結(jié)果;所述候選詞集合的重要度結(jié)果,包括:第一重要度EMS(Wi);
所述基于無(wú)監(jiān)督算法和預(yù)測(cè)模型篩選所述候選詞集合以確定所述候選詞集合的重要度結(jié)果,具體包括:
根據(jù)所述無(wú)監(jiān)督算法確定所述候選詞集合中每個(gè)所述候選詞相對(duì)于所述文本數(shù)據(jù)的所述第一重要度EMS(Wi);所述第一重要度EMS(Wi)表示為
其中,Tj表示切分所述文本數(shù)據(jù)后得到的文本片段,ri()表示迭代函數(shù);
ri(j)表示重要度參量,可以表示為
其中,I()表示選擇函數(shù),S表示由任意個(gè)詞匯生成的句子,表示詞典D中被切分的句子,Wi表示候選詞,P()表示概率函數(shù),D表示詞典,表示詞典概率參數(shù);
根據(jù)所述候選詞集合的重要度結(jié)果確定主題詞。
2.根據(jù)權(quán)利要求1所述的主題詞挖掘方法,其特征在于,所述獲取文本數(shù)據(jù),具體包括:
獲取待處理的行業(yè)文本語(yǔ)料;
對(duì)所述行業(yè)文本語(yǔ)料進(jìn)行預(yù)處理操作以得到所述文本數(shù)據(jù);所述預(yù)處理操作,包括:刪除冗余字符、確定文本粒度和分行處理。
3.根據(jù)權(quán)利要求1所述的主題詞挖掘方法,其特征在于,所述基于語(yǔ)言模型過(guò)濾所述文本數(shù)據(jù)以確定候選詞集合,具體包括:
基于所述語(yǔ)言模型根據(jù)所述文本數(shù)據(jù)確定所述文本數(shù)據(jù)中的詞匯的詞長(zhǎng)和詞頻;
利用數(shù)據(jù)挖掘策略選擇所述詞長(zhǎng)不大于詞長(zhǎng)閾值且所述詞頻不小于詞頻閾值的所述文本數(shù)據(jù)中的詞匯以確定候選詞;
基于凝固度和自由度篩選策略根據(jù)所述候選詞確定所述候選詞集合。
4.根據(jù)權(quán)利要求3所述的主題詞挖掘方法,其特征在于,所述基于凝固度和自由度篩選策略根據(jù)所述候選詞確定所述候選詞集合,具體包括:
確定所述候選詞的凝固度SD(Wi)和自由度FD(Wi);所述候選詞的凝固度SD(Wi)表示為
其中,Wi表示所述候選詞,Wi=C1C2...n,C1C2...Cn表示字符,p()表示概率函數(shù);
所述候選詞的自由度FD(Wi)表示為
FD(Wi)=min{LE(Wi),RE(Wi)}
其中,LE(Wi)表示所述候選詞的左鄰熵,RE(Wi)表示所述候選詞的右鄰熵;
基于所述凝固度和自由度篩選策略選擇所述凝固度SD(Wi)不小于凝固度閾值且所述自由度FD(Wi)不小于自由度閾值的所述候選詞以確定所述候選詞集合。
5.根據(jù)權(quán)利要求1所述的主題詞挖掘方法,其特征在于,所述候選詞集合的重要度結(jié)果,還包括:第二重要度LCS(Wi);
所述基于無(wú)監(jiān)督算法和預(yù)測(cè)模型篩選所述候選詞集合以確定候選詞集合的重要度結(jié)果,具體包括:
根據(jù)所述預(yù)測(cè)模型確定所述候選詞集合中每個(gè)所述候選詞相對(duì)于所述文本數(shù)據(jù)的所述第二重要度LCS(Wi)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京郵電大學(xué);國(guó)網(wǎng)浙江省電力有限公司,未經(jīng)北京郵電大學(xué);國(guó)網(wǎng)浙江省電力有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011580178.X/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 域詞典創(chuàng)建
- 一種設(shè)備故障解決方案知識(shí)管理與檢索系統(tǒng)及方法
- 一種基于主題數(shù)據(jù)庫(kù)的文獻(xiàn)檢索方法及系統(tǒng)
- 基于MeSH的醫(yī)學(xué)文獻(xiàn)集相似性度量方法
- 一種基于流式LDA主題模型發(fā)現(xiàn)文檔隱含主題和主題詞的方法
- 祝福語(yǔ)文本生成方法和裝置、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 用于推送信息的方法和裝置
- 主題詞提取方法、裝置、存儲(chǔ)介質(zhì)及電子設(shè)備
- 完善主題詞的全文數(shù)據(jù)庫(kù)精準(zhǔn)高效檢索方法
- 佛學(xué)主題詞識(shí)別方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





