[發(fā)明專利]一種基于主題詞向量和網(wǎng)絡(luò)結(jié)構(gòu)的主題關(guān)鍵詞提取方法有效
| 申請(qǐng)?zhí)枺?/td> | 201711315360.0 | 申請(qǐng)日: | 2017-12-12 |
| 公開(公告)號(hào): | CN108052593B | 公開(公告)日: | 2020-09-22 |
| 發(fā)明(設(shè)計(jì))人: | 胡曉慧;李超;曾慶田;戴明弟;趙中英 | 申請(qǐng)(專利權(quán))人: | 山東科技大學(xué) |
| 主分類號(hào): | G06F16/33 | 分類號(hào): | G06F16/33;G06F16/35;G06K9/62 |
| 代理公司: | 青島智地領(lǐng)創(chuàng)專利代理有限公司 37252 | 代理人: | 陳海濱 |
| 地址: | 266590 山東省青*** | 國(guó)省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 主題詞 向量 網(wǎng)絡(luò) 結(jié)構(gòu) 主題 關(guān)鍵詞 提取 方法 | ||
本發(fā)明公開了一種基于主題詞向量和網(wǎng)絡(luò)結(jié)構(gòu)的主題關(guān)鍵詞提取方法,具體涉及從文本中提取關(guān)鍵詞技術(shù)領(lǐng)域。該基于主題詞向量和網(wǎng)絡(luò)結(jié)構(gòu)的主題關(guān)鍵詞提取方法基于LDA主題模型對(duì)文本語(yǔ)料進(jìn)行主題聚類,并獲得每個(gè)主題中與該主題相關(guān)度為top100的100個(gè)關(guān)鍵詞;利用word2vec將文本語(yǔ)料中的每個(gè)詞表示為一個(gè)詞向量,通過計(jì)算獲得每?jī)蓚€(gè)詞之間的語(yǔ)義相似度,分別計(jì)算出與關(guān)鍵詞中的每個(gè)關(guān)鍵詞在語(yǔ)義上相似度top5的詞,關(guān)鍵詞和每個(gè)關(guān)鍵詞在語(yǔ)義上相似度top5的詞共同組成新的關(guān)鍵詞集合;構(gòu)建關(guān)鍵詞網(wǎng)絡(luò),并獲得每個(gè)集合top 20的詞作為該主題的關(guān)鍵詞。該方法既能對(duì)文檔中詞頻較高的關(guān)鍵詞進(jìn)行提取,又可以有效地發(fā)現(xiàn)詞頻較低但是與主題關(guān)系強(qiáng)的關(guān)鍵詞。
技術(shù)領(lǐng)域
本發(fā)明涉及從文本中提取關(guān)鍵詞技術(shù)領(lǐng)域,具體涉及一種基于主題詞向量和網(wǎng)絡(luò)結(jié)構(gòu)的主題關(guān)鍵詞提取方法。
背景技術(shù)
隨著表示學(xué)習(xí)技術(shù)在自然語(yǔ)言處理領(lǐng)域廣泛應(yīng)用,應(yīng)用word2vec進(jìn)行詞語(yǔ)的向量表示,能夠很好的描述和獲取詞語(yǔ)的語(yǔ)義及語(yǔ)法規(guī)則,同時(shí),主題模型能夠很好的解釋文檔層級(jí)的主題聚集情況。因此,目前融合主題模型及主題關(guān)鍵字的詞向量表示的研究越來越廣泛。
LDA主題模型:在提出的各種主題模型中,LDA是能夠概括主題分布的生成模型。LDA是一個(gè)三級(jí)分層的貝葉斯模型,其中集合的每個(gè)項(xiàng)目被建模為潛在的主題集合上的有限混合,相反,每個(gè)主題也被模擬為一組潛在的主題概率的無限混合。在文本建模的上下文中,主題概率提供了文檔的顯示表示。LDA的建模過程可以被描述為每個(gè)資源(即P(z|d))找到對(duì)應(yīng)的主題混合,每個(gè)主題由另一概率分布(即P(t|z))來描述。這可以被形式化地表示為:
其中,P(ti|d)是給定文檔d的第i項(xiàng)上的概率,zi是潛在主題。P(ti|zj=j(luò))是主題j中ti的概率。P(zj=j(luò)|d)是文檔在主題j上的概率。潛在主題的Z的數(shù)量必須提前定義。LDA使用Dirichlet先驗(yàn)分布和確定的主題數(shù)來從未標(biāo)記的語(yǔ)料庫(kù)中估計(jì)主題詞分布P(t|z)和文檔主題分布P(z|d)。
LDA是使用范圍很廣的主題模型,多數(shù)其他的主題模型都是基于LDA進(jìn)行擴(kuò)展。但從整體來看LDA抽取的關(guān)鍵詞一般過于寬泛,不能較好反映文章主題,因此本發(fā)明提出的方法是創(chuàng)新的。
word embedding:詞嵌入是根據(jù)句法和語(yǔ)義信息將每個(gè)詞編碼為連續(xù)向量(詞向量),因此相似的詞在其詞向量上的距離是相近的。從自然文本中統(tǒng)計(jì)并建立一個(gè)語(yǔ)言模型并獲得詞向量后,可以將其作為神經(jīng)網(wǎng)絡(luò)的輸入來進(jìn)行句法分析、情感分析等,也可以作為輔助特征擴(kuò)充現(xiàn)有模型。但是僅有詞向量是無法識(shí)別文本預(yù)料中的主題的,必須將其與主題模型相結(jié)合。
現(xiàn)有無監(jiān)督的關(guān)鍵詞提取技術(shù)主要包括TF-IDF,Topic model,TextRank等方案。其技術(shù)缺點(diǎn)主要體現(xiàn)在以下幾個(gè)方面:
TF-IDF是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù),是對(duì)搜索關(guān)鍵詞重要性的度量,應(yīng)用于文本關(guān)鍵詞的提取同樣獲得較好的效果。但是TF-IDF是基于詞頻和關(guān)鍵詞概率分布的交叉熵,即是不考慮詞出現(xiàn)的先后順序的,沒有考慮文本中每個(gè)詞與上下文之間的關(guān)系。
廣泛使用的Topic model如LDA等能較好的從文檔中挖掘出主題,但是其抽取的關(guān)鍵詞過為寬泛,有很多是詞頻較高但與主題無關(guān)的詞,不能較好的反應(yīng)主題,所以作為關(guān)鍵詞是不合適的。
TextRank算法是一種用于文本的基于圖的排序算法,將文本拆分為句子,利用詞在文本中上下文的共現(xiàn)關(guān)系來建立圖模型,根據(jù)圖模型中的PageRank值來提取關(guān)鍵詞。該算法在考慮了詞頻和詞共現(xiàn)關(guān)系的基礎(chǔ)上,能簡(jiǎn)潔有效的提取單篇文檔的關(guān)鍵詞,但是無法對(duì)多篇文檔的主題進(jìn)行識(shí)別和聚類,因而無法對(duì)特定主題下文檔的關(guān)鍵詞進(jìn)行提取。
發(fā)明內(nèi)容
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于山東科技大學(xué),未經(jīng)山東科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711315360.0/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 域詞典創(chuàng)建
- 一種設(shè)備故障解決方案知識(shí)管理與檢索系統(tǒng)及方法
- 一種基于主題數(shù)據(jù)庫(kù)的文獻(xiàn)檢索方法及系統(tǒng)
- 基于MeSH的醫(yī)學(xué)文獻(xiàn)集相似性度量方法
- 一種基于流式LDA主題模型發(fā)現(xiàn)文檔隱含主題和主題詞的方法
- 祝福語(yǔ)文本生成方法和裝置、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 用于推送信息的方法和裝置
- 主題詞提取方法、裝置、存儲(chǔ)介質(zhì)及電子設(shè)備
- 完善主題詞的全文數(shù)據(jù)庫(kù)精準(zhǔn)高效檢索方法
- 佛學(xué)主題詞識(shí)別方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 移動(dòng)向量解碼方法和移動(dòng)向量解碼裝置
- 一種用于支持向量機(jī)的在線向量選取方法
- 用于在幀序列中執(zhí)行運(yùn)動(dòng)估計(jì)的數(shù)據(jù)處理系統(tǒng)和方法
- 神經(jīng)網(wǎng)絡(luò)的處理方法及裝置、存儲(chǔ)介質(zhì)、電子設(shè)備
- 字符序列處理方法及設(shè)備
- 向量獲取方法、裝置、電子設(shè)備以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 向量獲取方法、裝置、電子設(shè)備以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 近鄰向量的召回方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種向量運(yùn)算裝置及運(yùn)算方法
- 生成類別向量的方法和裝置
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點(diǎn)網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲(chǔ)介質(zhì)及移動(dòng)終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動(dòng)恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲(chǔ)介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲(chǔ)介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置





