[發明專利]同義詞挖掘方法、裝置、設備和計算機可讀存儲介質有效
| 申請號: | 201710852095.3 | 申請日: | 2017-09-19 |
| 公開(公告)號: | CN107748755B | 公開(公告)日: | 2019-11-05 |
| 發明(設計)人: | 周文禮;張二磊;王娜敏;劉杰 | 申請(專利權)人: | 華為技術有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/33;G06F16/36;G06F17/27 |
| 代理公司: | 北京東方億思知識產權代理有限責任公司 11258 | 代理人: | 賀琳 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 同義詞 挖掘 方法 裝置 設備 計算機 可讀 存儲 介質 | ||
1.一種同義詞挖掘方法,其特征在于,包括:
獲取同義詞候選資源集,所述同義詞候選資源集包括多條機器數據,所述機器數據由機器語言編寫;
識別所述同義詞候選資源集中每條機器數據具有的上下文信息,根據預設的特征詞詞典,提取每條機器數據的上下文信息中的特征詞;
對所述同義詞候選資源集中具有相同特征詞的多條機器數據進行文本分析,得到同義詞集合,所述同義詞集合包括具有相同特征詞的至少兩條機器數據所具有的同義詞。
2.根據權利要求1所述的方法,其特征在于,所述獲取同義詞候選資源集,包括:
按照預設的符號集中的符號,將每條機器數據劃分為至少一個數據顆粒,所述機器數據包括所述符號集中的至少一個符號,所述數據顆粒包括至少一個詞語;
識別每個所述數據顆粒中的對象標識,所述對象標識被所述符號標記;
依據所述對象標識的組成模式,計算所述對象標識的隨機性概率;
將所述對象標識相同,且所述對象標識的隨機性概率小于或等于預設概率閾值的多條機器數據,作為同義詞候選資源集。
3.根據權利要求2所述的方法,其特征在于,所述識別所述同義詞候選資源集中每條機器數據具有的上下文信息,根據預設的特征詞詞典,提取每條機器數據的上下文信息中的特征詞,包括:
查找每個所述數據顆粒中的非對象標識,如果所述數據顆粒具有非對象標識,獲取所述數據顆粒所在機器數據的上下文信息,獲取的上下文信息包括所述數據顆粒、在所述數據顆粒所在機器數據的時間戳與所述數據顆粒之間的數據,查找所述獲取的上下文信息中與所述特征詞詞典匹配的詞語,查找到的詞語為所述特征詞。
4.根據權利要求2或3所述的方法,其特征在于,所述對所述同義詞候選資源集中具有相同特征詞的多條機器數據進行文本分析,得到同義詞集合,包括:
按照預設的符號集中的符號,在所述同義詞候選資源集中具有相同特征詞的多條所述機器數據內,查找相同的所述對象標識對應的詞語,組成同義詞集合;
和/或,
按照預設的符號集中的符號和所述機器數據中詞語的詞性,在所述同義詞候選資源集中具有相同特征詞的多條所述機器數據內,查找相同的所述對象標識對應的詞組,組成同義詞集合。
5.根據權利要求2所述的方法,其特征在于,所述同義詞候選資源集中的所述機器數據的時間戳之間的時間間隔在預設的時長范圍內。
6.根據權利要求5所述的方法,其特征在于,所述同義詞候選資源集包括兩條所述機器數據,且兩條所述機器數據的時間戳相鄰;
所述方法還包括:
獲取包含相同特征詞的多個所述同義詞候選資源集對應的同義詞集合,合并獲取的同義詞集合。
7.根據權利要求1所述的方法,其特征在于,在所述獲取同義詞候選資源集之前,還包括:
采集得到時間戳距離當前時刻預設時間長度內的所述機器數據。
8.一種同義詞挖掘裝置,其特征在于,包括:
資源集獲取單元,被配置為獲取同義詞候選資源集,所述同義詞候選資源集包括多條機器數據,所述機器數據由機器語言編寫;
特征詞提取單元,被配置為識別所述同義詞候選資源集中每條機器數據具有的上下文信息,根據預設的特征詞詞典,提取每條機器數據的上下文信息中的特征詞;
同義詞獲取單元,被配置為對所述同義詞候選資源集中具有相同特征詞的多條機器數據進行文本分析,得到同義詞集合,所述同義詞集合包括具有相同特征詞的至少兩條機器數據所具有的同義詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司,未經華為技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710852095.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種知識圖譜完善方法和裝置
- 下一篇:數據采集方法、移動終端及可讀存儲介質





