[發明專利]一種對未登錄詞生成仿真詞向量的方法及裝置有效
| 申請號: | 201711402565.2 | 申請日: | 2017-12-22 |
| 公開(公告)號: | CN108038105B | 公開(公告)日: | 2020-06-05 |
| 發明(設計)人: | 蔣宏飛;李健銓;晉耀紅;楊凱程 | 申請(專利權)人: | 中科鼎富(北京)科技發展有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F40/30;G06F40/289;G06F40/253 |
| 代理公司: | 北京弘權知識產權代理事務所(普通合伙) 11363 | 代理人: | 逯長明;許偉群 |
| 地址: | 100089 北京市海淀區萬*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 登錄 生成 仿真 向量 方法 裝置 | ||
本申請實施例提供了一種對未登錄詞生成仿真詞向量的方法及裝置,為了解決未登錄詞問題,從已知的詞向量空間中,獲取未登錄詞的n元語法分詞在詞向量空間中的子集;然后,根據子集中n元語法分詞的詞向量,生成子集向量;然后,獲取未登錄詞的完全隨機向量;最后,將子集向量和未登錄詞的完全隨機向量進行加權求和,生成未登錄詞的仿真詞向量。本申請的技術方案生成的仿真詞向量中,子集向量加權的部分,使仿真詞向量具有與未登錄詞語義關聯的特性,完全隨機向量加權的部分,使仿真詞向量具有靈活多變的特性,由于同時具備這兩種特性,使用本申請生成的仿真詞向量在對話系統中生成的應答準確率高,又能夠靈活多變而具有應答多樣性。
技術領域
本申請涉及自然語言處理技術領域,尤其涉及一種對未登錄詞生成仿真詞向量的方法及裝置。
背景技術
隨著自然語言處理技術的發展,基于自然語言處理技術建立起來的對話系統也得到了廣泛的應用,常用的對話系統例如聊天機器人,能夠根據用戶輸入的聊天內容,自動生成相應地應答。
現有技術中,對話系統根據不同的應答方法可分為基于知識庫的檢索式對話系統和基于深度學習模型的生成式對話系統。其中,基于深度學習模型的對話系統,通過建立一個基于RNN(遞歸神經網絡:Recurrent Neural Networks)的對話模型,并使用該模型進行大量的語料訓練,使對話模型能夠從問答對中學習到對未知對話的潛在應答模式,從而其回答內容不僅局限于訓練語料中已有的知識。
基于深度學習模型的對話系統在進行語料訓練和語料應答時,以詞向量為操作對象,詞向量是對語料中分詞的一種數學化的表達形式。詞向量在深度學習中的貢獻是:通過將兩個詞向量計算余弦夾角或歐氏距離,能夠得到兩個分詞的距離,兩個分詞的距離越小,表示兩個分詞的相似度越高。在對話系統的訓練過程中,會根據訓練語料生成包含已知分詞詞向量的詞向量空間;在對話系統的應答過程中,根據問題分詞的詞向量與已知分詞的詞向量之間的距離,并結合機器學習的算法生成問題的應答內容。
但是,基于語料訓練得到的詞向量空間對于專業領域的業務術語、方言詞匯、外文、組合詞的包含能力較差,因此,在問題內容不受限的開放式對話系統中,對話系統經常會遇到未登錄詞(OOV:out-of-vocabulary),未登錄詞也稱集外詞,是指詞向量空間中未包含的分詞。當對話系統遇到包含未登錄詞的問題時,其給出應答內容的準確率就會下降,這種情況被稱為未登錄詞(OOV)問題。目前,現有技術對未登錄詞問題缺乏有效的解決辦法。
發明內容
本申請實施例提供了一種對未登錄詞生成仿真詞向量的方法及裝置,以解決現有技術中存在的問題。
第一方面,本申請實施例提供了一種對未登錄詞生成仿真詞向量的方法,所述方法包括:
從已知的詞向量空間中,獲取未登錄詞的n元語法分詞在詞向量空間中的子集;所述子集為非空集或空集,當所述子集為非空集時,所述子集包含所述未登錄詞的至少一個n元語法分詞;
當所述子集為非空集時,根據所述子集中n元語法分詞的詞向量,生成子集向量;
獲取所述未登錄詞的完全隨機向量;
將所述子集向量和所述未登錄詞的完全隨機向量進行加權求和,生成所述未登錄詞的仿真詞向量。
第二方面,本申請實施例提供了一種對未登錄詞生成仿真詞向量的裝置,所述裝置包括:
子集獲取模塊,用于從已知的詞向量空間中,獲取未登錄詞的n元語法分詞在詞向量空間中的子集;所述子集為非空集或空集,當所述子集為非空集時,所述子集包含所述未登錄詞的至少一個n元語法分詞;
子集向量生成模塊,用于當所述子集為非空集時,根據所述子集中n元語法分詞的詞向量,生成子集向量;
完全隨機向量獲取模塊,用于獲取所述未登錄詞的完全隨機向量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中科鼎富(北京)科技發展有限公司,未經中科鼎富(北京)科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711402565.2/2.html,轉載請聲明來源鉆瓜專利網。





