[發明專利]一種訓練語句的獲取方法、裝置、存儲介質及電子設備在審
| 申請號: | 201911375157.1 | 申請日: | 2019-12-27 |
| 公開(公告)號: | CN111144120A | 公開(公告)日: | 2020-05-12 |
| 發明(設計)人: | 岳永鵬;李躍 | 申請(專利權)人: | 北京知道創宇信息技術股份有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06N3/04 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 唐正瑜 |
| 地址: | 100000 北京市朝陽區阜*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 訓練 語句 獲取 方法 裝置 存儲 介質 電子設備 | ||
1.一種訓練語句的獲取方法,其特征在于,包括:
從未標注的語料數據庫中進行抽樣,將抽取的未標注語句分別輸入到預構建的快模型和慢模型中,其中,所述慢模型為基于深度學習的模型;
利用所述快模型和所述慢模型對輸入的未標注語句進行處理,并分別輸出未標注語句的實體關系的快模型預測結果和慢模型預測結果;
計算所述快模型預測結果和慢模型預測結果間的投票熵,所述投票熵用于表示快模型預測結果和慢模型預測結果的一致性;在所述投票熵大于預設值時,將所述未標注語句作為候選語句,推送給用戶進行數據標注,在所述候選語句完成數據標注后,獲得已標注語句。
2.根據權利要求1所述的方法,其特征在于,在獲得已標注語句之后,所述方法還包括:
利用所述已標注語句對所述快模型中的模型參數進行即時更新,且在已標注語句的增量達到預設數量時,利用預設數量的已標注語句對所述慢模型中的模型參數進行更新。
3.根據權利要求2所述的方法,其特征在于,所述快模型包括用于實體識別的序列標注模型CRF1和用于實體關系分類的第一分類模型;利用所述快模型對輸入的未標注語句進行處理,包括:
對輸入的未標注語句進行分詞,并在分詞后計算詞頻-逆文本指數的值,獲得每個詞的特征向量;
根據每個詞的特征向量,利用CRF1進行序列標注,獲得每個詞對應的實體標簽;
根據每個詞對應的實體標簽,利用第一分類模型對未標注語句的實體關系進行預測,獲得快模型預測結果。
4.根據權利要求2所述的方法,其特征在于,所述慢模型包括基于深度學習的特征提取模型、用于實體識別的序列標注模型CRF2和用于實體關系分類的第二分類模型;利用所述慢模型對輸入的未標注語句進行處理,包括:
根據預設的詞向量庫進行文本向量化,獲得未標注語句中每個詞的詞向量;通過特征提取模型將對應的文本字符轉換為字符向量,并將詞向量和字符向量拼接成混合特征向量;
根據所述混合特征向量,利用CRF2進行序列標注,獲得每個詞對應的實體標簽;
根據所述混合特征向量和每個詞對應的實體標簽,利用第二分類模型對未標注語句的實體關系進行預測,獲得慢模型預測結果。
5.根據權利要求1所述的方法,其特征在于,所述計算所述快模型預測結果和慢模型預測結果間的投票熵,包括:
利用如下公式計算投票熵:
其中,V(c,e)為快模型和慢模型對訓練語句e的預測類別c的投票數目,K為快模型與慢模型的數目;C為預測類別的集合;|C|為預測類別的數目;logmin(K,|C|)為歸一化因子。
6.根據權利要求1所述的方法,其特征在于,所述方法還包括:
當所述慢模型對實體關系預測的準確率或召回率的漲幅低于預設閾值時,將此時的慢模型作為實體關系抽取模型。
7.根據權利要求6所述的方法,其特征在于,所述方法還包括:
利用實體關系抽取模型對輸入的文本語句中的實體以及實體與實體間的關系進行聯合抽取,獲得所述文本語句中的實體間關系。
8.一種訓練語句的獲取裝置,其特征在于,包括:
語句抽取模塊,用于從未標注的語料數據庫中進行抽樣,將抽取的未標注語句分別輸入到預構建的快模型和慢模型中,其中,所述慢模型為基于深度學習的模型;
模型預測模塊,用于利用所述快模型和所述慢模型對輸入的未標注語句進行處理,并分別輸出未標注語句的實體關系的快模型預測結果和慢模型預測結果;
投票模塊,用于計算所述快模型預測結果和慢模型預測結果間的投票熵,所述投票熵用于表示快模型預測結果和慢模型預測結果的一致性;在所述投票熵大于預設值時,將所述未標注語句作為候選語句,推送給用戶進行數據標注,在所述候選語句完成數據標注后,獲得已標注語句。
9.一種存儲介質,其特征在于,所述存儲介質上存儲有計算機程序,所述計算機程序被處理器運行時執行如權利要求1-7任一項所述的方法。
10.一種電子設備,其特征在于,包括:處理器、存儲器和總線,所述存儲器存儲有所述處理器可執行的機器可讀指令,當所述電子設備運行時,所述處理器與所述存儲器之間通過總線通信,所述機器可讀指令被所述處理器執行時執行如權利要求1-7任一項所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京知道創宇信息技術股份有限公司,未經北京知道創宇信息技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911375157.1/1.html,轉載請聲明來源鉆瓜專利網。





