[發明專利]文檔與標簽詞語義關聯方法及其裝置有效
| 申請號: | 201610051437.7 | 申請日: | 2016-01-26 |
| 公開(公告)號: | CN105718585B | 公開(公告)日: | 2019-02-22 |
| 發明(設計)人: | 陳發君;劉忠;黃金才;修保新;朱承;程光權;陳超;馮旸赫 | 申請(專利權)人: | 中國人民解放軍國防科學技術大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 北京中濟緯天專利代理有限公司 11429 | 代理人: | 陳立新 |
| 地址: | 410073 湖*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文檔 標簽 詞語 關聯 方法 及其 裝置 | ||
發明提供一種文檔與標簽詞語義關聯方法及其裝置,包括以下步驟:步驟S100:獲取文檔,作為文檔語料,文檔屬于標簽詞相關領域且具有時效性;步驟S200:構造句法模式并對文檔語料進行句法模式匹配,合并符合句法模式的結果為候選提及相關詞集合C;步驟S300:用經過訓練的Word2vec模型對候選提及相關詞C集合進行過濾,得到提及相關詞集合V;步驟S400:根據提及相關詞和標簽詞,計算多篇文檔與標簽詞的相關度,并構件標簽詞與文檔的相關度數據庫。本發明的方法基于實時文檔語料動態構建語義關聯,不需要依賴靜態且維護成本較高的同義詞庫。
技術領域
本發明涉及計算機技術領域,具體的涉及一種文檔與標簽詞語義關聯方法及其裝置。
背景技術
當今互聯網每天都會產生海量新聞資訊,個人閱讀理解新聞資訊的能力是有限的,然而,互聯網用戶需要了解網絡上都發生了哪些事件、討論了哪些事件,比如金融行業分析師、投資人士需要查閱大量資訊來了解當前行業熱點事件,才能了解到與熱點事件關聯的新聞有哪些。
目前,建立領域標簽與文檔關聯較常用的方法為通過關鍵詞匹配,即如果文檔中出現該具體的標簽詞,即認為文檔與標簽相關。并將其提取作為待處理文檔。存在的問題是查全率不足。以對含菜籽油的文檔進行篩選為例進行說明:當文檔中含“菜籽油”這一標簽時,現有方法僅能將出現了菜籽油的文檔定為具有相關性的文檔。而對于其他諸如“菜油”、“芥花油”等與菜籽油同義的詞出現時,現有提取方法并不能將其視為與“菜籽油”相關的文檔,無法建立關聯,導致用戶查詢不到此類文檔。
使用基于語義的文檔匹配方法,可以提高查全率。目前,實現標簽詞與文檔語義關聯的方法主要是通過同義詞庫的方式。同義詞的獲取目前大多需要人工創建和維護,比如《哈工大信息檢索研究室同義詞詞林擴展版》,它是目前應用比較廣泛的同義詞庫,同時也是哈爾濱工業大學花費了大量人力物力才完成的。即便如此,我們發現該詞庫在2009年之后就不再有更新。因為人工維護同義詞庫代價較高,更新頻率必然會很慢,對于領域專用標簽詞更是如此,因而無法使用現有的方法,通過人工獲得相應的結果。
現有基于關鍵詞的文檔與領域標簽關聯方法存在以下缺點:①關聯不全面,只要標簽詞不出現,就無法建立關聯;②關聯不準確,因為沒有考慮語義相關詞對關聯度的影響,導致關聯度計算結果與事實不一致。
發明內容
本發明的目的在于提供一種文檔與標簽詞語義關聯方法及其裝置,該發明解決了現有同義詞詞庫需借助人工維護,同義詞庫更新及時性差,數據不全面,導致缺乏同義詞對應的上下位關系詞的技術問題。
本發明提供一種文檔與標簽詞語義關聯方法,包括以下步驟:步驟S100:獲取文檔,作為文檔語料,文檔屬于標簽詞相關領域且具有時效性;步驟S200:構造句法模式并對文檔語料進行句法模式匹配,合并符合句法模式的結果為候選提及相關詞集合C;步驟S300:用經過訓練的Word2vec模型對候選提及相關詞C集合進行過濾,得到提及相關詞集合V;步驟S400:根據提及相關詞和標簽詞,計算多篇文檔與標簽詞的相關度,并構件標簽詞與文檔的相關度數據庫;句法模式包括含多個標簽詞s的S集合、含多個模式標識詞的W集合和N集合,其中W集合為模式標識詞集合,N集合為文檔語料的句子中處于模式標識詞后的所有名詞的集合;模式標識詞包括同義模式標識詞和子概念標識詞。
進一步地,步驟S200中包括以下步驟:步驟S210:對文檔語料中的句子進行逐句對比;步驟S220:判斷句子中是否包含標簽詞s和模式標識詞w;步驟S230:如果包含標簽詞s和模式標識詞w,則將句子中處于模式標識詞w后的所有名詞歸入N集合中,合并多個N集合,得到候選提及相關詞集合C。
進一步地,步驟S300中的過濾包括以下步驟:步驟S310:以文檔語料訓練word2vec模型后,采用訓練后的word2vec模型計算候選提及相關詞集合C中每個詞與標簽詞的word2vec相關度;步驟S320:選取C集合中與標簽詞的word2vec相關度大于閾值的詞,構造包含多個提及相關詞v的集合V。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍國防科學技術大學,未經中國人民解放軍國防科學技術大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610051437.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:助推式鮮木薯原料浮選清雜裝置
- 下一篇:一種灰粉流量閥





