[發明專利]一種訓練語句的獲取方法、裝置、存儲介質及電子設備在審
| 申請號: | 201911375157.1 | 申請日: | 2019-12-27 |
| 公開(公告)號: | CN111144120A | 公開(公告)日: | 2020-05-12 |
| 發明(設計)人: | 岳永鵬;李躍 | 申請(專利權)人: | 北京知道創宇信息技術股份有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06N3/04 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 唐正瑜 |
| 地址: | 100000 北京市朝陽區阜*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 訓練 語句 獲取 方法 裝置 存儲 介質 電子設備 | ||
本申請提供一種訓練語句的獲取方法、裝置、存儲介質及電子設備,其中,方法包括:從未標注的語料數據庫中進行抽樣,將抽取的未標注語句分別輸入到預構建的快模型和慢模型中,慢模型為基于深度學習的模型;利用快模型和慢模型對輸入的未標注語句進行處理,并分別輸出未標注語句的實體關系的快模型預測結果和慢模型預測結果;計算快模型預測結果和慢模型預測結果間的投票熵,在投票熵大于預設值時,將未標注語句作為候選語句,推送給用戶進行數據標注,獲得已標注語句。本申請使用即時更新的快模型和當已標注語句積累到一定數量時更新的慢模型相結合,應用投票選擇策略,實現對差異性較大的未標注語句的選擇,完成實體關系抽取的訓練語句的準備。
技術領域
本申請涉及機器學習技術領域,具體而言,涉及一種訓練語句的獲取方法、裝置、存儲介質及電子設備。
背景技術
監督學習是指,利用一組已知類別的樣本調整模型的參數,當有新數據到來時,可以根據已訓練的模型來完成對新數據分類結果的預測。監督學習分為訓練和預測兩個階段,在訓練階段通過帶有標簽的訓練數據集來確認模型的參數,得到一個模型,在預測階段將無標簽的數據輸入到已經訓練好的模型,得到一個預測的標簽。標簽數據集的獲得依賴于人工標注,而人工標注是需要耗費大量成本的,數據標注少,不能保證能訓練出有效的模型,標注的數據越多,對模型提升不明顯的情況下,在現實工程中,將會花費更高昂的成本。
在實體關系抽取模型的訓練過程中,需要大量已標注的訓練語句樣本,但在實際實踐中,對語句進行類別標注存在著代價昂貴、枯燥乏味或是異常困難等問題,并且已經完成標注的數據也存在標注類別偏差較大,樣本不均衡的問題,標注樣本的不均衡也會影響實體關系抽取模型的精確度。
發明內容
本申請實施例的目的在于提供一種訓練語句的獲取方法、裝置、存儲介質及電子設備,使用快模型和慢模型相結合,應用投票選擇策略,實現對差異性較大的未標注語句的選擇,有效降低成本,且解決標注語句的類別不均衡的問題。
第一方面,本申請實施例提供一種訓練語句的獲取方法,包括:從未標注的語料數據庫中進行抽樣,將抽取的未標注語句分別輸入到預構建的快模型和慢模型中,其中,所述慢模型為基于深度學習的模型;利用所述快模型和所述慢模型對輸入的未標注語句進行處理,并分別輸出未標注語句的實體關系的快模型預測結果和慢模型預測結果;計算所述快模型預測結果和慢模型預測結果間的投票熵,所述投票熵用于表示快模型預測結果和慢模型預測結果的一致性;在所述投票熵大于預設值時,將所述未標注語句作為候選語句,推送給用戶進行數據標注,在所述候選語句完成數據標注后,獲得已標注語句。
在上述過程中,使用快模型和慢模型相結合,并應用投票選擇策略,實現對差異性較大的未標注語句的選擇,這樣在已標注語句較少的情況下以盡可能少的標記語句進行訓練獲得正確率較高的模型,從而降低構建高效能實體關系抽取模型的代價。同時,由于選擇的是兩個預測結果差異性較大的語句,所以能夠使訓練語句間的類別得到平衡,有利于模型精度的提高。
可選的,在獲得已標注語句之后,所述方法還包括:利用所述已標注語句對所述快模型中的模型參數進行即時更新,且在已標注語句的增量達到預設數量時,利用預設數量的已標注語句對所述慢模型中的模型參數進行更新。
快模型計算快,能夠進行即時更新,而慢模型是基于深度學習的模型,模型計算量大、運算較慢,需在已標注語句達到一定數量后進行更新。每標注一條候選語句,快模型中的參數能夠實時更新,所以在下一次預測時,能夠獲得更加準確的快模型預測結果。
可選的,所述快模型包括用于實體識別的序列標注模型CRF1和用于實體關系分類的第一分類模型;利用所述快模型對輸入的未標注語句進行處理,包括:對輸入的未標注語句進行分詞,并在分詞后計算詞頻-逆文本指數的值,獲得每個詞的特征向量;根據每個詞的特征向量,利用CRF1進行序列標注,獲得每個詞對應的實體標簽;根據每個詞對應的實體標簽,利用第一分類模型對未標注語句的實體關系進行預測,獲得快模型預測結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京知道創宇信息技術股份有限公司,未經北京知道創宇信息技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911375157.1/2.html,轉載請聲明來源鉆瓜專利網。





