[發明專利]變形詞識別方法和裝置在審
| 申請號: | 201911040805.8 | 申請日: | 2019-10-30 |
| 公開(公告)號: | CN112749555A | 公開(公告)日: | 2021-05-04 |
| 發明(設計)人: | 鄭佳歡;付華崢;陳康;向勇;陳翀;劉春;關迎輝;鄭永坤;張海平;蔡鳳恩 | 申請(專利權)人: | 中國電信股份有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284 |
| 代理公司: | 中國貿促會專利商標事務所有限公司 11038 | 代理人: | 許蓓 |
| 地址: | 100033 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 變形 識別 方法 裝置 | ||
本公開提出一種變形詞識別方法和裝置,涉及自然語言處理領域。本公開利用變形詞所屬的詞圖關系網絡的子群中的變形詞的鄰居詞語節點,構建變形詞的詞圖向量,根據變形詞的詞向量和詞圖向量,構建變形詞的綜合描述向量,從語義表示和詞圖關系上全面描述該變形詞,并通過匹配變形詞的綜合描述向量與關鍵詞庫中的關鍵詞的綜合描述向量,以識別變形詞。
技術領域
本公開涉及自然語言處理領域,特別涉及一種變形詞識別方法和裝置。
背景技術
當前互聯網業務數據暴漲,各種變形詞不斷出現,嚴重影響關鍵詞的匹配和獲取。這些變形詞,對于人腦來說比較容易理解,然而對于機器識別來說,會產生負面影響,造成詞語識別不準確。目前的機器識別技術難以將這些變形詞識別為其實際語義。
發明內容
本公開利用變形詞所屬的詞圖關系網絡的子群中的變形詞的鄰居詞語節點,構建變形詞的詞圖向量,根據變形詞的詞向量和詞圖向量,計算變形詞的綜合描述向量,從語義表示和詞圖關系上全面描述該變形詞,并通過匹配變形詞的綜合描述向量與關鍵詞庫中的關鍵詞的綜合描述向量,以識別變形詞。
本公開的一些實施例提出一種變形詞識別方法,包括:
根據待識別的變形詞所在的語料,計算所述變形詞的詞向量;
根據所述變形詞所屬的詞圖關系網絡的子群中的所述變形詞的鄰居詞語節點,構建所述變形詞的詞圖向量;
根據所述變形詞的詞向量和詞圖向量,構建所述變形詞的綜合描述向量;
匹配所述變形詞的綜合描述向量與關鍵詞庫中的關鍵詞的綜合描述向量,以識別所述變形詞。
在一些實施例中,計算所述變形詞的詞圖向量包括:根據所述變形詞的各個鄰居詞語節點的重要性度量值,對所述變形詞的相應鄰居詞語節點的詞向量進行加權求和,得到所述變形詞的詞圖向量。
在一些實施例中,所述詞圖關系網絡包括多個節點和連接不同節點的邊,其中,多個節點包括語料中的詞,連接不同節點的邊在所述不同節點在語料中同時出現的頻次達到預設值時存在,邊的權值由語料中同時出現所述不同節點的頻次大小決定。
在一些實施例中,所述詞圖關系網絡的子群是利用隨機游走算法對所述詞圖關系網絡進行分割得到的。
在一些實施例中,所述多個節點還包括變形詞和關鍵詞經過預設轉換后得到的轉換詞,所述預設轉換包括:將中文字轉換為其拼音或拼音首字母、拆分中文字的偏旁和部首。
在一些實施例中,所述變形詞所在的語料包括:直接包括所述變形詞的語料和間接包括所述變形詞的語料中的一個或全部,其中,如果原始詞經過預設轉換得到所述變形詞,則間接包括所述變形詞的語料是指:所述原始詞所在的語料并將其中的原始詞替換為所述變形詞后得到的語料;其中,所述預設轉換包括:將中文字轉換為其拼音或拼音首字母、拆分中文字的偏旁和部首。
在一些實施例中,當轉換之前的一個詞包括多個字時,所述多個字經過一種或多種預設變換得到轉換詞。
在一些實施例中,所述拼音或拼音首字母帶音調。
在一些實施例中,所述變形詞被識別為與其匹配的關鍵詞,所述方法還包括:將所述變形詞所在語料中的所述變形詞替換為與其匹配的關鍵詞;對替換后的所述變形詞所在語料執行預設任務。
本公開的一些實施例提出一種變形詞識別裝置,包括:
存儲器;以及
耦接至所述存儲器的處理器,所述處理器被配置為基于存儲在所述存儲器中的指令,執行任意一個實施例的變形詞識別方法。
本公開的一些實施例提出一種非瞬時性計算機可讀存儲介質,其上存儲有計算機程序,該程序被處理器執行時實現任意一個實施例的變形詞識別方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國電信股份有限公司,未經中國電信股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911040805.8/2.html,轉載請聲明來源鉆瓜專利網。





