[發明專利]基于語義模型的訓練方法、裝置以及電子設備在審
| 申請號: | 201911385958.6 | 申請日: | 2019-12-27 |
| 公開(公告)號: | CN111079445A | 公開(公告)日: | 2020-04-28 |
| 發明(設計)人: | 陳喜旺;黃柯 | 申請(專利權)人: | 南京三百云信息科技有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/247;G06Q50/00 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 張萌 |
| 地址: | 210000 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 語義 模型 訓練 方法 裝置 以及 電子設備 | ||
本申請提供了一種基于語義模型的訓練方法、裝置以及電子設備,涉及模型訓練技術領域,解決目前語義識別模型的識別結果準確率較低的技術問題。方法包括:基于標注的訓練樣本集對語義標注模型進行訓練,得到訓練后的語義標注模型;基于語義標注模型重復執行下述步驟,直至識別模型的識別結果滿足預設條件,輸出訓練后的識別模型:基于語義標注模型對未標注文本集中的每個文本進行識別,得到每個文本的初步標簽;基于關鍵詞集合以及判定邏輯,對每個文本的初步標簽進行判斷得到每個文本的最終標簽;基于每個文本的最終標簽對訓練后的語義標注模型進行訓練,以及對中間判定邏輯和中間關鍵詞集合進行優化;確定識別模型的識別結果是否滿足預設條件。
技術領域
本申請涉及模型訓練技術領域,尤其是涉及一種基于語義模型的訓練方法、裝置以及電子設備。
背景技術
目前,語義識別模型的種類有很多種,例如,自然語言處理(Natural LanguageProcessing,NLP)模型、雙向編碼器(Bidirectional Encoder Representations fromTransformers,BERT)等。
但是,無論基于何種模型進行語義識別,都很容易造成各種歧義,出現錯誤識別的現象。例如,“張哥”、“王姐”等識別成親戚哥哥、姐姐,父親與某人的父親之間的歧義,等等,導致最終識別結果存在大量的誤判,使目前語義識別模型的識別結果準確率較低。
發明內容
本發明的目的在于提供一種基于語義模型的訓練方法、裝置以及電子設備,以解決目前語義識別模型的識別結果準確率較低的技術問題。
第一方面,本申請實施例提供了一種基于語義模型的訓練方法,預先確定標注的訓練樣本集、未標注文本集以及識別模型,所述識別模型包括語義標注模型、判定邏輯以及關鍵詞集合,所述關鍵詞集合中的關鍵詞為基于所述標注的訓練樣本集確定的具有歧義的詞;所述方法包括:
基于所述標注的訓練樣本集對所述語義標注模型進行訓練,得到訓練后的語義標注模型;基于所述語義標注模型重復執行下述步驟,直至所述識別模型的識別結果滿足預設條件,輸出為訓練后的識別模型:
基于所述語義標注模型對所述未標注文本集中的每個文本進行識別,得到每個所述文本的初步標簽;
基于所述關鍵詞集合以及所述判定邏輯,對每個所述文本的初步標簽進行判斷,得到每個所述文本的最終標簽;
基于每個所述文本的最終標簽對所述訓練后的語義標注模型進行訓練,以及對中間判定邏輯和中間關鍵詞集合進行優化;
確定所述識別模型的識別結果是否滿足預設條件。
在一個可能的實現中,所述關鍵詞集合的存儲方式為分布式存儲的方式;和/或,所述標注的訓練樣本集和所述未標注文本集的存儲方式為分布式存儲的方式。
在一個可能的實現中,所述關鍵詞集合中的關鍵詞對應有標簽;多個所述標簽被分至多個不同標簽種類的組內,每個所述組內的標簽具有與對應組之間的索引。
在一個可能的實現中,所述關鍵詞集合中的關鍵詞為目標對象的身份關鍵詞;
所述標注的訓練樣本集和所述未標注文本集中的樣本均為所述目標對象的社交數據樣本。
在一個可能的實現中,所述目標對象的社交數據樣本的標注內容包括下述任意一項或多項:
時間、地點以及所述目標對象的標識、工作行業領域、社交關系和親屬關系。
在一個可能的實現中,所述標注的訓練樣本集包括:訓練樣本和測試樣本;
確定所述識別模型的識別結果是否滿足預設條件的步驟,包括:
基于所述測試樣本通過所述識別模型,得到測試結果;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京三百云信息科技有限公司,未經南京三百云信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911385958.6/2.html,轉載請聲明來源鉆瓜專利網。





