[發明專利]信息提取方法、模型訓練方法及相關設備有效
| 申請號: | 202110753704.6 | 申請日: | 2021-07-02 |
| 公開(公告)號: | CN113343714B | 公開(公告)日: | 2022-06-07 |
| 發明(設計)人: | 羅通;蔣寧;王洪斌;吳海英 | 申請(專利權)人: | 馬上消費金融股份有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/242;G06F40/216;G06F40/211;G06N3/04;G06N3/08 |
| 代理公司: | 北京同立鈞成知識產權代理有限公司 11205 | 代理人: | 張娜;黃健 |
| 地址: | 401120 重慶市渝北區*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 信息 提取 方法 模型 訓練 相關 設備 | ||
1.一種信息提取方法,其特征在于,包括:
獲取待處理文本;
將所述待處理文本輸入至實體對象識別模型,輸出所述待處理文本中的N個實體詞,所述N為正整數;
分別將所述N個實體詞中的每個實體詞和所述待處理文本作為輸入量輸入至情感信息提取模型,輸出所述N個實體詞一一對應的N個情感信息;
將所述待處理文本中的每個實體詞輸入至實體詞典中進行匹配,將所述實體詞典中與所述每個實體詞匹配的目標實體詞和多個子實體詞作為所述待處理文本對應的有效實體詞;所述實體詞典包括至少一個實體的實體信息,所述實體信息包括目標實體詞和多個子實體詞,所述多個子實體詞分別為表示同一個實體的不同實體名稱,所述目標實體詞為所述多個子實體詞對應的統一名稱;
將情感詞典中與每個所述有效實體詞對應的情感信息作為有效情感信息;所述情感詞典包括至少一個實體詞對應的情感信息。
2.根據權利要求1所述的方法,其特征在于,所述實體對象識別模型包括:語言表示層、雙向長短記憶網絡層和條件隨機場層;
其中,所述語言表示層,用于將輸入的待處理文本轉換成第一句子向量,以及將所述第一句子向量輸入至所述雙向長短記憶網絡層;
所述雙向長短記憶網絡層,用于識別所述第一句子向量中的第一實體詞向量以及所述第一實體詞向量對應的概率值;
所述條件隨機場層,用于根據所述第一實體詞向量以及所述第一實體詞向量對應的概率值,確定所述待處理文本中的實體詞。
3.根據權利要求1所述的方法,其特征在于,所述情感信息提取模型包括:語言表示層、雙向長短記憶網絡層和條件隨機場層;
其中,所述語言表示層,用于將輸入的待處理文本轉換成第二句子向量,以及將輸入的實體詞轉換成第二實體詞向量,以及將所述第二句子向量和所述第二實體詞向量輸入至所述雙向長短記憶網絡層;
所述雙向長短記憶網絡層,用于在所述第二句子向量中識別所述第二實體詞向量對應的情感信息以及所述情感信息對應的概率值;
所述條件隨機場層,用于根據所述情感信息對應的概率值,確定所述待處理文本中的實體詞對應的情感信息。
4.根據權利要求1-3任一項所述的方法,其特征在于,所述方法還包括:
確定實體識別訓練集和情感信息訓練集;所述實體識別訓練集包括多個實體識別訓練樣本,每個實體識別訓練樣本包括一個文本以及所述一個文本的P個實體詞,所述P為大于或等于1的整數;所述情感信息訓練集包括多個情感信息訓練樣本,每個情感信息訓練樣本包括一個文本、所述一個文本的一個實體詞以及所述一個實體詞對應的情感信息;
將所述實體識別訓練集輸入至第一神經網絡中進行訓練,得到所述實體對象識別模型,以及,將所述情感信息訓練集輸入至第二神經網絡進行訓練,得到所述情感信息提取模型。
5.根據權利要求4所述的方法,其特征在于,所述P大于1,所述確定情感信息訓練集,包括:
針對所述一個文本的P個實體詞中的每個實體詞分別構建一個情感信息訓練樣本,得到所述一個文本對應的P個情感信息訓練樣本。
6.根據權利要求4或5所述的方法,其特征在于,所述方法還包括:
根據所述實體識別訓練集生成所述實體詞典,以及,根據所述情感信息訓練集生成所述情感詞典。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于馬上消費金融股份有限公司,未經馬上消費金融股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110753704.6/1.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





