[發(fā)明專利]一種基于圖模型的關(guān)鍵詞提取方法及裝置有效
| 申請?zhí)枺?/td> | 201710208956.4 | 申請日: | 2017-03-31 |
| 公開(公告)號: | CN106970910B | 公開(公告)日: | 2020-03-27 |
| 發(fā)明(設(shè)計)人: | 王亮 | 申請(專利權(quán))人: | 北京奇藝世紀(jì)科技有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/30 |
| 代理公司: | 北京柏杉松知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11413 | 代理人: | 馬敬;項京 |
| 地址: | 100080 北京市海淀*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 模型 關(guān)鍵詞 提取 方法 裝置 | ||
本發(fā)明實施例提供了一種基于圖模型的關(guān)鍵詞提取方法及裝置,所述方法包括:獲取待處理文本,并對所述待處理文本進行分詞,得到所述待處理文本對應(yīng)的候選關(guān)鍵詞;在詞向量模型中查找所述候選關(guān)鍵詞對應(yīng)的詞向量,所述詞向量模型包括所述候選關(guān)鍵詞的詞向量;根據(jù)所述詞向量構(gòu)建所述候選關(guān)鍵詞的詞相似度矩陣;根據(jù)所述候選關(guān)鍵詞的詞相似度矩陣對所述候選關(guān)鍵詞進行排序,提取所述待處理文本的關(guān)鍵詞。應(yīng)用本發(fā)明實施例,有效提高關(guān)鍵詞提取的準(zhǔn)確率。
技術(shù)領(lǐng)域
本發(fā)明涉及關(guān)鍵詞提取技術(shù)領(lǐng)域,特別是涉及一種基于圖模型的關(guān)鍵詞提取方法及裝置。
背景技術(shù)
關(guān)鍵詞作為一段文本中具有代表性的文字,已經(jīng)被廣泛應(yīng)用在信息檢索、文本分類等方面。其中,基于圖模型的關(guān)鍵詞提取方法已經(jīng)被廣泛應(yīng)用于搜索排序、引文分析、社交網(wǎng)絡(luò)以及自然語言處理(如關(guān)鍵詞提取、文章主題句提取等)等方面。圖模型是一類用圖來表示概率分布的一類技術(shù)的總稱,一篇文本可以被映射為一個以詞語為節(jié)點、詞語之間的關(guān)聯(lián)關(guān)系為邊的網(wǎng)絡(luò)圖。基于圖模型的關(guān)鍵詞提取方法的兩個基本假設(shè)為:1、數(shù)量假設(shè):某一節(jié)點與其他節(jié)點鏈接數(shù)越多,那么該節(jié)點越重要;2、質(zhì)量假設(shè):與節(jié)點A相連的節(jié)點質(zhì)量不同,質(zhì)量高的節(jié)點會通過鏈接向其他節(jié)點傳遞更多的權(quán)重,所以越是質(zhì)量高的節(jié)點鏈接到節(jié)點A,節(jié)點A越重要。因此,基于圖模型的關(guān)鍵詞提取方法的關(guān)鍵是鏈接權(quán)重的計算,而節(jié)點之間的鏈接權(quán)重為詞與詞之間的相似度。
現(xiàn)有的基于圖模型的關(guān)鍵詞提取方法,通過把文本分割成若干組成單元(單詞、句子)并建立圖模型,利用投票機制對文本中的組成單元進行排序,然后選取排序靠前的組成單元作為關(guān)鍵詞。具體的,先把給定的文本按照完整句子進行分割;然后對于每個句子進行分詞和詞性標(biāo)注處理,得到詞及詞對應(yīng)的詞性標(biāo)注;根據(jù)詞及詞性標(biāo)注,過濾掉這些詞中介詞、助詞、連詞、感嘆詞等停用詞,保留名詞、動詞、形容詞等指定詞性的詞,并將指定詞性的詞作為候選關(guān)鍵詞;再根據(jù)候選關(guān)鍵詞,構(gòu)建候選關(guān)鍵詞圖模型,即將候選關(guān)鍵詞為候選關(guān)鍵詞圖模型的節(jié)點,候選關(guān)鍵詞之間的關(guān)聯(lián)關(guān)系作為關(guān)鍵詞圖模型的邊,其中,候選關(guān)鍵詞之間的關(guān)聯(lián)關(guān)系通過計算候選關(guān)鍵詞之間的相似度得到。在基于圖模型的關(guān)鍵詞提取方法中,采用加窗的方式構(gòu)建詞與詞之間的相似度,讓每個窗口內(nèi)的詞給它相鄰的窗口投票,投票的權(quán)重取決于自己的票數(shù),由于每個窗口與它相鄰的窗口有共現(xiàn)的詞,因此也可以說詞與詞之間的相似度是通過詞與詞共現(xiàn)得到的;最后在這個圖上候選關(guān)鍵詞的票數(shù)經(jīng)過迭代投票,可以得到候選關(guān)鍵詞的票數(shù)排序,并選取票數(shù)靠前的候選關(guān)鍵詞作為關(guān)鍵詞。
但是,現(xiàn)有的基于圖模型的關(guān)鍵詞提取方法,要通過詞與詞之間共現(xiàn)才能得到詞與詞之間的相似度,這樣,對重復(fù)出現(xiàn)的詞就會有過重的加權(quán),例如候選關(guān)鍵詞中一些不能成為關(guān)鍵詞,但多次重復(fù)出現(xiàn)的詞,如內(nèi)容、計算、處理、解決、最高等,導(dǎo)致關(guān)鍵詞提取準(zhǔn)確率不高。另外,提取關(guān)鍵詞的結(jié)果對窗口的大小比較敏感,由于窗口的大小需要人為來設(shè)定例如,一個句子依次由下面的詞組成:w1、w2、w3、w4、w5…wn,設(shè)定窗口的大小為k,則w1、w2、w3…wk,w2、w3、w4…wk+1,w3、w4、w5…wk+2等都是一個窗口,在一個窗口中的任兩個詞對應(yīng)的節(jié)點之間存在一個無向無權(quán)的邊,那么,不同大小窗口的選取可能導(dǎo)致截然不同的結(jié)果,也導(dǎo)致關(guān)鍵詞提取準(zhǔn)確率不高。
發(fā)明內(nèi)容
本發(fā)明實施例的目的在于提供一種基于圖模型的關(guān)鍵詞提取方法及裝置,提高關(guān)鍵詞提取的準(zhǔn)確率。具體技術(shù)方案如下:
本發(fā)明實施例公開了一種基于圖模型的關(guān)鍵詞提取方法,所述方法包括:
獲取待處理文本,并對所述待處理文本進行分詞,得到所述待處理文本對應(yīng)的候選關(guān)鍵詞;
在詞向量模型中查找所述候選關(guān)鍵詞對應(yīng)的詞向量,所述詞向量模型包括所述候選關(guān)鍵詞的詞向量;
根據(jù)所述詞向量構(gòu)建所述候選關(guān)鍵詞的詞相似度矩陣;
根據(jù)所述候選關(guān)鍵詞的詞相似度矩陣對所述候選關(guān)鍵詞進行排序,提取所述待處理文本的關(guān)鍵詞。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京奇藝世紀(jì)科技有限公司,未經(jīng)北京奇藝世紀(jì)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710208956.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 關(guān)鍵詞輸出設(shè)備和關(guān)鍵詞輸出方法
- 用于選擇用于網(wǎng)絡(luò)發(fā)布的關(guān)鍵詞的方法和設(shè)備
- 關(guān)鍵詞質(zhì)量度的檢測方法和裝置
- 關(guān)鍵詞排名的檢測方法和裝置
- 關(guān)鍵詞相似度獲取方法、裝置及服務(wù)器
- 關(guān)鍵詞推薦方法及裝置
- 一種關(guān)鍵詞檢索管理系統(tǒng)
- 一種信息推薦方法、電子設(shè)備、存儲介質(zhì)及系統(tǒng)
- 關(guān)鍵詞廣告投放自動化否定關(guān)鍵詞方法及裝置
- 一種長尾關(guān)鍵詞識別方法、關(guān)鍵詞搜索方法及計算機設(shè)備





