[發明專利]文本識別模型相似度訓練方法、系統、識別方法及終端在審
| 申請號: | 201910901703.4 | 申請日: | 2019-09-23 |
| 公開(公告)號: | CN110781277A | 公開(公告)日: | 2020-02-11 |
| 發明(設計)人: | 詹威;肖龍源;蔡振華;李稀敏;劉曉葳;王靜 | 申請(專利權)人: | 廈門快商通科技股份有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/332;G06F40/30;G06F40/289;G06K9/62 |
| 代理公司: | 35227 廈門仕誠聯合知識產權代理事務所(普通合伙) | 代理人: | 樂珠秀 |
| 地址: | 361009 福建省廈門市*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語句 語義 文本識別 訓練數據集 樣本標記 樣本數據 組詞 模型相似度 相似度計算 標記結果 后續文本 模型訓練 判斷結果 訓練數據 負樣本 正樣本 構建 樣本 終端 | ||
1.一種文本識別模型相似度訓練方法,其特征在于,所述方法包括:
獲取樣本數據,并分別對所述樣本數據內的樣本語句進行相似度計算,以獲取多組相似語句組合;
判斷所述相似語句組合內的相似語句之間是否滿足語義條件,并根據判斷結果對所述相似語句進行樣本標記;
根據所述樣本標記的標記結果以構建訓練數據集,并根據所述訓練數據集對文本識別模型進行模型訓練。
2.如權利要求1所述的文本識別模型相似度訓練方法,其特征在于,所述分別對所述樣本數據內的樣本語句進行相似度計算的步驟包括:
分別對所述樣本語句進行分詞,以得到詞語串,并將所述詞語串轉化為標識串,所述標識串為數字串或字母串;
將所述標識串進行向量映射,以得到詞向量,并對所述詞向量進行特征變換和特征提取,以得到特征向量;
根據所述特征向量,分別在所述樣本數據中兩兩所述樣本語句之間進行余弦計算,以得到余弦相似度。
3.如權利要求2所述的文本識別模型相似度訓練方法,其特征在于,所述分別對所述樣本數據內的樣本語句進行相似度計算的步驟還包括:
當判斷到所述余弦相似度大于相似度閾值時,將所述余弦相似度對應的兩個所述樣本語句進行組合,以得到所述相似語句組合。
4.如權利要求1所述的文本識別模型相似度訓練方法,其特征在于,所述判斷所述相似語句組合內的相似語句之間是否滿足語義條件的步驟包括:
分別對所述相似語句進行特征提取,以得到語義特征;
判斷所述語義特征之間是否屬于相同語義類別;
若是,則判定所述相似語句之間滿足所述語義條件;
若否,則判定所述相似語句之間未滿足所述語義條件。
5.如權利要求1所述的文本識別模型相似度訓練方法,其特征在于,所述根據判斷結果對所述相似語句進行樣本標記的步驟包括:
當判斷到所述相似語句之間滿足所述語義條件時,對所述相似語句進行正樣本標記;
當判斷到所述相似語句之間未滿足所述語義條件時,對所述相似語句進行樣本負標記。
6.如權利要求1所述的文本識別模型相似度訓練方法,其特征在于,所述分別對所述樣本數據內的樣本語句進行相似度計算的步驟包括:
分別對所述樣本語句進行分詞,以得到詞語串;
在所述樣本數據中的所述詞語串之間進行詞語匹配,以得到多個重復詞頻;
當判斷到所述重復詞頻大于詞頻閾值時,將對應的兩個所述樣本語句進行組合,以得到所述相似語句組合。
7.如權利要求1所述的文本識別模型相似度訓練方法,其特征在于,所述根據所述樣本標記的標記結果以構建訓練數據集的步驟之前,所述方法還包括:
將所述樣本數據分別輸入intention模型和ner模型,并獲取相似度結果;
將所述相似度結果與所述標記結果進行融合。
8.一種文本識別模型相似度訓練系統,其特征在于,所述系統包括:
相似度計算模塊,用于獲取樣本數據,并分別對所述樣本數據內的樣本語句進行相似度計算,以獲取多組相似語句組合;
樣本標記模塊,用于判斷所述相似語句組合內的相似語句之間是否滿足語義條件,并根據判斷結果對所述相似語句進行樣本標記;
模型訓練模塊,用于根據所述樣本標記的標記結果以構建訓練數據集,并根據所述訓練數據集對文本識別模型進行模型訓練。
9.一種文本識別模型相似度識別方法,其特征在于,所述方法包括:
根據權利要求1至7任一項所述的文本識別模型相似度訓練方法對文本識別模型進行訓練;
獲取待識別語句,并控制所述文本識別模型將所述待識別語句與本地預存儲的常見問答庫進行相似度匹配,以獲取目標疑問句和與所述目標疑問句對應的目標回復句;
根據所述目標回復句進行疑問回復。
10.一種終端,其特征在于,包括存儲設備以及處理器,所述存儲設備用于存儲計算機程序,所述處理器運行所述計算機程序以使所述終端執行根據權利要求1至7任一項所述的文本識別模型相似度訓練方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門快商通科技股份有限公司,未經廈門快商通科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910901703.4/1.html,轉載請聲明來源鉆瓜專利網。





