[發明專利]信息獲取方法、裝置、設備及介質有效
| 申請號: | 202110762048.6 | 申請日: | 2021-07-06 |
| 公開(公告)號: | CN113468330B | 公開(公告)日: | 2023-04-28 |
| 發明(設計)人: | 汪貽俊;孫長志;周浩;李磊 | 申請(專利權)人: | 北京有竹居網絡技術有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/295 |
| 代理公司: | 北京開陽星知識產權代理有限公司 11710 | 代理人: | 王艷斌 |
| 地址: | 101299 北京市平*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 信息 獲取 方法 裝置 設備 介質 | ||
本公開實施例涉及一種信息獲取方法、裝置、設備及介質,其中該方法包括:設置與樣本集合中每個樣本句子對應的標簽表,其中,標簽表的行字符和列字符按照對應樣本句子的字符順序進行相同設置,以及對標簽表中由行字符和列字符組成的各單元格標注對應的信息類別標簽;將每個樣本句子作為待訓練模型的輸入信息,將對應的標簽表作為待訓練模型的輸出信息進行模型訓練;根據訓練后的模型參數生成信息抽取模型,以根據信息抽取模型提取目標句子信息。由此,通過句子的字符構建標簽表,在標簽表中標注句子字符或者字符之間的信息類別,從而,基于標簽表訓練的信息抽取模型可以高效準確的提取相關句子的信息類別等信息。
技術領域
本公開涉及數據處理領域,尤其涉及一種信息獲取方法、裝置、設備及介質。
背景技術
隨著計算機技術的發展,句子的信息類別抽取成為較為常見的一種數據處理方式,比如,當信息類別包括實體詞字符類別及其對應的關系類別時,實體詞字符類別及其對應的關系類別的抽取通常作為信息抽取中的一個關鍵環節,被應用在問答系統,知識庫等下游自然語言處理任務中。
相關技術中,基于流水線方法進行句子的信息類別抽取,即預先構建兩個模型,其中一個模型用于字符的抽取,另一個模型用于根據字符進行有關信息類別的抽取,其中,另一個模型在抽取信息類別時,依賴于其中一個模型對字符的抽取結果,在抽取的字符的基礎上進行信息類別的抽取。
然而,上述流水線方式在進行信息類別抽取時,由于依賴于字符的抽取結果,因此,字符抽取的誤差必然會傳播到信息類別的抽取中,導致句子中字符信息類別抽取不準確。
發明內容
為了解決上述技術問題或者至少部分地解決上述技術問題,本公開提供了一種信息獲取方法,所述方法包括:設置與樣本集合中每個樣本句子對應的標簽表,其中,所述標簽表的行字符和列字符按照對應樣本句子的字符順序進行相同設置,以及對所述標簽表中由所述行字符和所述列字符組成的各單元格標注對應的信息類別標簽;將所述樣本集合中每個樣本句子作為待訓練模型的輸入信息,將與每個所述樣本句子對應的所述標簽表作為所述待訓練模型的輸出信息,根據預設的目標函數進行模型訓練;根據訓練后的模型參數生成信息抽取模型,以根據所述信息抽取模型提取目標句子信息。
本公開實施例還提供了一種信息獲取裝置,所述裝置包括:設置模塊,用于設置與樣本集合中每個樣本句子對應的標簽表,其中,所述標簽表的行字符和列字符按照對應樣本句子的字符順序進行相同設置,以及對所述標簽表中由所述行字符和所述列字符組成的各單元格標注對應的信息類別標簽;模型訓練模塊,用于將所述樣本集合中每個樣本句子作為待訓練模型的輸入信息,將與每個所述樣本句子對應的所述標簽表作為所述待訓練模型的輸出信息,根據預設的目標函數進行模型訓練;提取模塊,用于根據訓練后的模型參數生成信息抽取模型,以根據所述信息抽取模型提取目標句子信息。
本公開實施例還提供了一種電子設備,所述電子設備包括:處理器;用于存儲所述處理器可執行指令的存儲器;所述處理器,用于從所述存儲器中讀取所述可執行指令,并執行所述指令以實現如本公開實施例提供的信息獲取方法。
本公開實施例還提供了一種計算機可讀存儲介質,所述存儲介質存儲有計算機程序,所述計算機程序用于執行如本公開實施例提供的信息獲取方法。
本公開實施例提供的技術方案與現有技術相比具有如下優點:
本公開實施例提供的信息獲取方案,設置與樣本集合中每個樣本句子對應的標簽表,其中,標簽表的行字符和列字符按照對應樣本句子的字符順序進行相同設置,以及對標簽表中由行字符和列字符組成的各單元格標注對應的信息類別標簽,進而,將樣本集合中每個樣本句子作為待訓練模型的輸入信息,將與每個樣本句子對應的標簽表作為待訓練模型的輸出信息,根據預設的目標函數進行模型訓練,最后,根據訓練后的模型參數生成信息抽取模型,以根據信息抽取模型提取目標句子信息。由此,通過句子的字符構建標簽表,在標簽表中標注句子字符或者字符之間的信息類別,從而,基于標簽表訓練的信息抽取模型可以高效準確的提取相關句子的信息類別等信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京有竹居網絡技術有限公司,未經北京有竹居網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110762048.6/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





