[發明專利]一種基于短文本匹配的語音問答方法及系統在審
| 申請號: | 202210061030.8 | 申請日: | 2022-01-19 |
| 公開(公告)號: | CN114328881A | 公開(公告)日: | 2022-04-12 |
| 發明(設計)人: | 田尊明 | 申請(專利權)人: | 重慶長安汽車股份有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/33;G06F40/216;G06F40/242;G06F40/289 |
| 代理公司: | 重慶博凱知識產權代理有限公司 50212 | 代理人: | 萬霞 |
| 地址: | 400020 *** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 文本 匹配 語音 問答 方法 系統 | ||
1.一種基于短文本匹配的語音問答方法,其特征在于,包括以下步驟:
S1:檢測用戶語音,并將用戶語音轉換為輸入文本;
S2:對S1得到的輸入文本進行錯誤位點檢測和錯誤糾正,以獲得糾正文本;
S3:對S2獲得的糾正文本進行分詞和分詞的向量化處理,以得到分詞和句向量;
S4:基于S3得到的分詞和句向量,采用實體詞檢索、語義相似度和字符相似度聯合召回的方式,獲得知識點候選集;
S5:基于S2中的糾正文本和S4獲取的知識點候選集形成配對文本,采用ESIM模型對配對文本是否等價進行預測,基于預測結果對知識點候選集進行排序;
S6:基于預測結果進行決策判斷,決定回復形式,輸出系統的應答文本;
S7:將應答文本進行語音播報;
S8:設置交互界面的埋點,支持用戶對系統返回的應答文本進行有幫助、無幫助的評價反饋;
S9:定時抓取S8用戶反饋數據并加入ESIM模型,并啟動ESIM模型增量訓練,評估通過后的ESIM模型,作為最新ESIM模型使用。
2.根據權利要求1所述的一種基于短文本匹配的語音問答方法,其特征在于,步驟S2具體包括以下步驟:
S2.1:收集歷史對話數據和汽車論壇、汽車百科類開放數據,形成汽車語料集,收集汽車相關的專有實體名詞作為汽車專有實體名詞詞典,采用jieba分詞工具,加載汽車專有實體名詞詞典作為自定義詞典,然后對汽車語料集進行分詞,訓練3-gram以下的kenlm語言模型;
S2.2:收集開源的近音字、形近字的字典,以及歷史對話數據中標注出的錯誤的專有實體名詞的糾錯詞典;
S2.3:對S1得到的輸入文本進行分詞,然后通過3個詞的窗口平移獲取,3-gram的詞組,如文本分詞數小于3,則使用2-gram,如只有1個詞則跳過糾錯;
S2.4:用kenlm語言模型對S2.3獲得的詞組進行困惑度評分,得到困惑度評分結果列表;
S2.5:根據S2.4困惑度評分結果列表,計算各詞組的離均差,確定離均差最大的位點為潛在錯誤位點;
S2.6:將S2.5中的錯誤位點的分詞和糾錯詞典進行匹配,命中糾錯記錄則提出其中正確詞作為候選詞之一,以及針對分詞中的每個字匹配近音字和形近字字典,生成新的分詞,加入候選詞集合;
S2.7:針對S2.6得到的候選詞集合,逐個替換錯誤位點的文本,并按S2.3和S2.4的步驟重新進行困惑度評分,最后選擇評分最佳的候選集進行替換,從而生成糾錯后的糾正文本。
3.根據權利要求1所述的一種基于短文本匹配的語音問答方法,其特征在于,步驟S3具體包括以下步驟:
S3.1:收集歷史對話數據和汽車論壇、汽車百科類開放數據,形成汽車語料集,進行兩種處理,處理一:采用jieba分詞工具,加載包含汽車專有實體名詞的自定義詞典后,對汽車語料集進行分詞,獲得分詞后的列表數據;處理二:直接對汽車語料集逐字拆分,單個英文單詞保留為字,獲得字粒度的列表數據;對兩部分列表數據進行匯總,形成列表數據集,并生成包含字和詞的詞袋字典,保留詞頻大于2的記錄;
S3.2:將S3.1的列表數據集統一輸入到gensim模型,作為訓練word2vec詞向量模型的訓練樣本,最小詞頻設置為3,如果是新增的語料,則加載歷史word2vec詞向量模型,進行增量訓練;
S3.3:將S2得到的糾正文本進行分詞,分詞后的結果在S3.1的詞袋字典中查找對應編碼,如命中則替換為編碼,并且查找到的編碼在分詞所在列表里用一級列表替換;如無命中,則將分詞收錄入到未登錄詞詞典并累計詞頻,對應的文本加入到以未登錄詞為鍵,文本為值的字典,然后對分詞逐字拆分,在S3.1的詞袋字典中查找對應編碼,查找到的編碼在分詞所在列表里用二級列表替換;
S3.4:基于S3.3編碼后的一級列表和二級列表,查找S3.2中的word2vec 詞向量模型,獲得向量值,對二級列表的向量值求平均,然后對一級列表求平均,作為句子向量。
4.根據權利要求3所述的一種基于短文本匹配的語音問答方法,其特征在于,步驟S3還包括S3.5:定期將S3.3未登錄詞詞典中詞頻大于2的分詞對應的語料作為新增語料,在S3.2中進行gensim模型的增量訓練。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶長安汽車股份有限公司,未經重慶長安汽車股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210061030.8/1.html,轉載請聲明來源鉆瓜專利網。





