[發明專利]同義詞挖掘方法、裝置、設備和計算機可讀存儲介質有效
| 申請號: | 201710852095.3 | 申請日: | 2017-09-19 |
| 公開(公告)號: | CN107748755B | 公開(公告)日: | 2019-11-05 |
| 發明(設計)人: | 周文禮;張二磊;王娜敏;劉杰 | 申請(專利權)人: | 華為技術有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/33;G06F16/36;G06F17/27 |
| 代理公司: | 北京東方億思知識產權代理有限責任公司 11258 | 代理人: | 賀琳 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 同義詞 挖掘 方法 裝置 設備 計算機 可讀 存儲 介質 | ||
本發明提供了一種同義詞挖掘方法、裝置、設備和計算機可讀存儲介質,涉及機器語言領域。該同義詞挖掘方法,包括:獲取同義詞候選資源集,同義詞候選資源集包括多條機器數據;識別同義詞候選資源集中每條機器數據具有的上下文信息,根據預設的特征詞詞典,提取每條機器數據的上下文信息中的特征詞;對同義詞候選資源集中具有相同特征詞的多條機器數據進行文本分析,得到同義詞集合,同義詞集合包括具有相同特征詞的至少兩條機器數據所具有的同義詞。利用本發明的技術方案能夠實現在機器語言環境中的同義詞挖掘。
技術領域
本發明涉及機器語言領域,尤其涉及一種同義詞挖掘方法、裝置、設備和計算機可讀存儲介質。
背景技術
在工作、學習或生活等方面,人們常使用搜索引擎技術來搜索自己想要查詢的內容。搜索引擎根據用戶的輸入,為用戶搜索與輸入相關的內容。由于地區或文化水平等方面的差異,用戶的輸入可能會與一部分相關內容中的描述不相同。為了能夠為用戶搜索到更多的相關內容,搜索引擎需要挖掘出與用戶的輸入對應的同義詞,從而在用戶的輸入和與用戶的輸入對應的同義詞的基礎上進行搜索。
在機器語言的環境中,用戶有時也需要在機器語言編寫的數據中進行搜索。由于在軟件開發過程中,不同開發人員負責不同模塊的開發,或者,不同模塊語言模式的設置不同,使得表示同樣意思的詞或詞組在不同的機器數據中的寫法不同。為了能夠提供更多與用戶的搜索意圖匹配的內容,也需要挖掘用戶的搜索意圖的同義詞。但是,由于現有的同義詞挖掘方法適用于自然語言,而機器語言與自然語言的差異較大,現有的同義詞挖掘方法并不適用于機器語言環境。因此,目前急需一種適用于機器語言環境的同義詞挖掘方法。
發明內容
本申請提供了一種同義詞挖掘方法、裝置、設備和計算機可讀存儲介質,能夠實現在機器語言環境中的同義詞挖掘。
第一方面,本申請提供了一種同義詞挖掘方法,包括:獲取同義詞候選資源集,同義詞候選資源集包括多條機器數據;識別同義詞候選資源集中每條機器數據具有的上下文信息,根據預設的特征詞詞典,提取每條機器數據的上下文信息中的特征詞;對同義詞候選資源集中具有相同特征詞的多條機器數據進行文本分析,得到同義詞集合,同義詞集合包括具有相同特征詞的至少兩條機器數據所具有的同義詞。
采用本申請中的技術方案,基于上下文信息中提取的特征詞,在大量機器數據中篩選得到同一專業或領域中的同義詞出現概率高的對應的兩條以上的機器數據。繼而在同義詞出現概率高的機器數據中挖掘得到同義詞,進而實現在機器數據中的同義詞挖掘。
根據第一方面,在第一方面的第一種可能中,獲取同義詞候選資源集,包括:按照預設的符號集中的符號,將每條機器數據劃分為至少一個數據顆粒,機器數據包括符號集中的至少一個符號,數據顆粒包括至少一個詞語;識別每個數據顆粒中的對象標識,對象標識被符號標記;依據對象標識的組成模式,計算對象標識的隨機性概率;將對象標識相同,且對象標識的隨機性概率小于或等于預設概率閾值的多條機器數據,作為同義詞候選資源集。采用本申請的技術方案,利用對象標識的隨機性概率確定同義詞候選資源集中的機器數據,減小了同義詞候選資源集中的機器數據中不存在同義詞的概率,進而提高了機器數據中挖掘同義詞的準確率和效率。
根據第一方面的第一種可能,在第一方面的第二種可能中,識別同義詞候選資源集中每條機器數據具有的上下文信息,根據預設的特征詞詞典,提取每條機器數據的上下文信息中的特征詞,包括:查找每個數據顆粒中的非對象標識,如果數據顆粒具有非對象標識,獲取數據顆粒所在機器數據的上下文信息,獲取的上下文信息包括數據顆粒、在數據顆粒所在機器數據的時間戳與數據顆粒之間的數據,查找獲取的上下文信息中與特征詞詞典匹配的詞語,查找到的詞語為特征詞。采用本申請的技術方案,利用特征詞詞典提取特征詞,規定同義詞的使用專業或使用領域相同,從而提高同義詞挖掘的準確性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司,未經華為技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710852095.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種知識圖譜完善方法和裝置
- 下一篇:數據采集方法、移動終端及可讀存儲介質





