[發明專利]語義確定方法有效
| 申請號: | 202110398762.1 | 申請日: | 2021-04-14 |
| 公開(公告)號: | CN112800777B | 公開(公告)日: | 2021-07-30 |
| 發明(設計)人: | 王光勇;姜巍;李乘風;于游;趙永強;廖望梅;張姍姍 | 申請(專利權)人: | 北京育學園健康管理中心有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/289;G06N3/04 |
| 代理公司: | 北京繪聚高科知識產權代理事務所(普通合伙) 11832 | 代理人: | 汪帆 |
| 地址: | 100000 北京市朝陽區西*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語義 確定 方法 | ||
本發明實施例提供一種語義確定方法,本申請實施例通過獲取待確定語義的語句;從預先處理好的語料中訓練多任務的孿生網絡模型,通過訓練好的模型獲得對應語料的所有句向量。從訓練好的模型中提取出所述語句對應的句向量,計算所有句向量與所述語句向量之間的向量差值是否處于預設差值范圍內,將符合預設條件的多個句向量的相似度進行排序,將相似度最高的句向量作為所述語句對應匹配的語義,進而匹配到具體的語句,采用這種方法避免了使用單一任務造成的欠擬合,以至輸出結果的精確度低的問題。
技術領域
本發明屬于母嬰智能人工分析領域,尤其涉及一種語義確定方法。
背景技術
近年來,隨著人工智能領域尤其是深度學習的快速發展,自然語言處理在人類的學習工作與生活中發揮著越來越重要的作用。智能問答的出現使得一大批應用或服務涌現出來,如百度的小度,阿里的天貓精靈,小米的小愛同學,蘋果的Siri,微軟的小冰等設備系統。
在現有技術中,問答型機器人的技術路線為將句子映射為句向量,再通過計算句向量的余弦相似度得到分值最高的句子,再將其對應的答案給用戶。但是由于中文句子的語法結構的復雜多變,語義語境的多異性等因素,導致模型在線上的效果評估很差,給用戶帶來了不好的體驗;尤其是在母嬰領域使用的問答型機器人,如果不能充分理解中文語法結構的復雜性以及多異性,其不能準確輸出計算結果,將會導致模型在線上的效果評估很差,將會對用戶體驗造成很大的困擾。
發明內容
為了解決上述現有技術中但是由于中文句子的語法結構的復雜多變,語義語境的多異性等因素,導致模型在線上的效果評估很差,給用戶帶來了不好的體驗的技術問題,本申請提供了一種語義確定方法。
第一方面,本發明提供了一種語義確定方法,所述方法包括:
獲取待確定語義的語句C;
將所述語句輸入預設的孿生網絡模型中,得到語句C的特征向量,其中所述孿生網絡模型用于將語句向量化;
從向量庫中確定與語句C的特征向量相似度最高的相似向量;
將與所述相似向量對應的標準語句確定為與所述語句對應的語義。
進一步地,所述孿生網絡模型包括網絡結構第一分支、網絡結構第二分支、主分類任務、第一分支輔助任務和第二分支輔助任務,所述孿生網絡模型的訓練過程包括:
從預設的訓練語料中獲取句子A與句子B;
將所述句子A與句子B輸入至所述孿生網絡模型中,以使所述網絡結構第一分支確定所述句子A的特征向量,所述網絡結構第二分支確定所述句子B的特征向量,并使得所述孿生網絡模型將所述句子A的特征向量與句子B的特征向量進行特征融合得到融合向量后,基于所述句子A的特征向量與句子B的特征向量以及所述融合向量,確定用于將待處理句子向量化的孿生網絡模型的主分類任務。
進一步地,所述網絡結構第一分支和網絡結構第二分支、主分類任務、第一分支輔助任務和第二分支輔助任務的損失函數為自定義損失,其中損失函數的公式為:
其中,zi為孿生網絡模型輸出,i=1為第一分支輔助任務輸出,i=2為主分類任務輸出,i=3為第二分支輔助任務輸出,σ為孿生網絡模型超參數,w為孿生網絡模型權重矩陣,ε=0.1。
進一步地,所述從向量庫中確定與語句C的特征向量相似度最高的相似向量,包括:
通過余弦相似度公式,計算出每個句子向量與所述語句向量的相似度,其中句子向量存儲在所述向量庫中;
若句子向量與所述語句C的特征向量的相似度大于預設閾值,則確定出所述句子向量與所述語句C的特征向量之間的向量差值處于預設差值范圍內;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京育學園健康管理中心有限公司,未經北京育學園健康管理中心有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110398762.1/2.html,轉載請聲明來源鉆瓜專利網。





