[發明專利]文本識別模型相似度訓練方法、系統、識別方法及終端在審
| 申請號: | 201910901703.4 | 申請日: | 2019-09-23 |
| 公開(公告)號: | CN110781277A | 公開(公告)日: | 2020-02-11 |
| 發明(設計)人: | 詹威;肖龍源;蔡振華;李稀敏;劉曉葳;王靜 | 申請(專利權)人: | 廈門快商通科技股份有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/332;G06F40/30;G06F40/289;G06K9/62 |
| 代理公司: | 35227 廈門仕誠聯合知識產權代理事務所(普通合伙) | 代理人: | 樂珠秀 |
| 地址: | 361009 福建省廈門市*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語句 語義 文本識別 訓練數據集 樣本標記 樣本數據 組詞 模型相似度 相似度計算 標記結果 后續文本 模型訓練 判斷結果 訓練數據 負樣本 正樣本 構建 樣本 終端 | ||
本發明適用于文本識別技術領域,提供了一種文本識別模型相似度訓練方法、系統、識別方法及終端,該方法包括:獲取樣本數據,分別對樣本數據內的樣本語句進行相似度計算,以獲取多組相似語句組合;判斷相似語句組合內的相似語句之間是否滿足語義條件,根據判斷結果對相似語句進行樣本標記;根據樣本標記的標記結果以構建訓練數據集,根據訓練數據集對文本識別模型進行模型訓練。本發明通過對相似語句組合內的相似語句進行是否滿足語義條件的判斷的設計,以對應進行正樣本標記或負樣本標記,以達到將訓練數據集中組詞相同但語義不同的相似語句進行負標記的效果,進而防止了后續文本識別模型由于該組詞相同但語義不同的相似語句所導致的答非所問。
技術領域
本發明屬于文本識別技術領域,尤其涉及一種文本識別模型相似度訓練方法、系統、識別方法及終端。
背景技術
隨著人工智能的發展和普及,智能客服機器人在各個行業的應用也越來越多了,對于所有領域的智能客服機器人來說,常見問答庫似乎是不可或缺的,常見問答庫用于針對訪客提出的問題進行回答,因此,如何準確有效的檢索訪客真正需要檢索的問答對,以防止出現匹配錯誤出現答非所問現象已經成為了智能問答行業必須解決的底線問題。
現有的問答庫使用過程中,均通過基于文本識別模型的方式進行訪客問題的回答,但現有的文本識別模型使用過程中,均是通過采用無監督的方式進行文本相似度的訓練,使得當兩個語句中組成詞相同,但語義不相同時,文本識別模型會出現檢索錯誤,導致會誤認為訪客的問題和知識庫里的問答對匹配成功,而返回了錯誤的答案,使得答非所問概率較高。
發明內容
本發明實施例的目的在于提供一種文本識別模型相似度訓練方法、系統、識別方法及終端,旨在解決現有的文本識別模型訓練方法中,由于采用無監督訓練方式所導致的答非所問概率高的問題。
本發明實施例是這樣實現的,一種文本識別模型相似度訓練方法,所述方法包括:
獲取樣本數據,并分別對所述樣本數據內的樣本語句進行相似度計算,以獲取多組相似語句組合;
判斷所述相似語句組合內的相似語句之間是否滿足語義條件,并根據判斷結果對所述相似語句進行樣本標記;
根據所述樣本標記的標記結果以構建訓練數據集,并根據所述訓練數據集對文本識別模型進行模型訓練。
更進一步的,所述分別對所述樣本數據內的樣本語句進行相似度計算的步驟包括:
分別對所述樣本語句進行分詞,以得到詞語串,并將所述詞語串轉化為標識串,所述標識串為數字串或字母串;
將所述標識串進行向量映射,以得到詞向量,并對所述詞向量進行特征變換和特征提取,以得到特征向量;
根據所述特征向量,分別在所述樣本數據中兩兩所述樣本語句之間進行余弦計算,以得到余弦相似度。
更進一步的,所述分別對所述樣本數據內的樣本語句進行相似度計算的步驟還包括:
當判斷到所述余弦相似度大于相似度閾值時,將所述余弦相似度對應的兩個所述樣本語句進行組合,以得到所述相似語句組合。
更進一步的,所述判斷所述相似語句組合內的相似語句之間是否滿足語義條件的步驟包括:
分別對所述相似語句進行特征提取,以得到語義特征;
判斷所述語義特征之間是否屬于相同語義類別;
若是,則判定所述相似語句之間滿足所述語義條件;
若否,則判定所述相似語句之間未滿足所述語義條件。
更進一步的,所述根據判斷結果對所述相似語句進行樣本標記的步驟包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門快商通科技股份有限公司,未經廈門快商通科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910901703.4/2.html,轉載請聲明來源鉆瓜專利網。





