[發明專利]信息抽取方法、裝置和計算機可讀存儲介質在審
| 申請號: | 202110301488.1 | 申請日: | 2021-03-22 |
| 公開(公告)號: | CN115114430A | 公開(公告)日: | 2022-09-27 |
| 發明(設計)人: | 祝天剛;李浩然 | 申請(專利權)人: | 京東科技控股股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F17/16;G06F40/289 |
| 代理公司: | 中國貿促會專利商標事務所有限公司 11038 | 代理人: | 李昊;許蓓 |
| 地址: | 100176 北京市大興區北京經*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 信息 抽取 方法 裝置 計算機 可讀 存儲 介質 | ||
1.一種信息抽取方法,包括:
確定物品的描述文本所對應的描述向量;
將所述描述向量輸入到預先訓練的分類模型中,獲得所述分類模型輸出的類別,其中,輸出的類別表示所述物品所具備的屬性名;
將所述描述向量以及所述物品的屬性名信息輸入到預先訓練的序列標注模型中,獲得所述序列標注模型輸出的、對所述描述文本中詞語的標注結果,其中,被標注的詞語表示所述物品的屬性名所對應的屬性值。
2.根據權利要求1所述的信息抽取方法,其中,所述確定物品的描述文本所對應的描述向量包括:
將包括預設的占位符和所述物品的描述文本的數據輸入到編碼器中,獲得所述編碼器輸出的、所述描述文本所對應的描述向量,其中,所述描述向量中包括所述占位符對應的、所述描述文本的整體向量,以及所述描述文本中每個詞語的向量。
3.根據權利要求2所述的信息抽取方法,其中,所述編碼器為變形器的雙向編碼器表示BERT。
4.根據權利要求2所述的信息抽取方法,其中,所述分類模型具有整句參數矩陣和第一詞語參數矩陣,并且,所述分類模型根據所述描述文本中每個詞語的向量與所述第一詞語參數矩陣的運算結果之和、以及所述描述本文的整體向量與所述整句參數矩陣的運算結果確定。
5.根據權利要求1或2所述的信息抽取方法,其中,所述序列標注模型具有第二詞語參數矩陣和屬性名參數矩陣,并且,所述序列標注模型用于確定根據所述描述文本中的每個詞語的向量與所述第二詞語參數矩陣的乘積、以及所述屬性名信息與所述屬性名參數矩陣的乘積,確定所述詞語基于所述屬性名的標注概率,并根據所述標注概率從所述描述文本中確定所述屬性名所對應的屬性值。
6.根據權利要求1所述的信息抽取方法,還包括:
獲取訓練文本所對應的訓練描述向量、以及所述訓練文本所標記的屬性名和相應的屬性值;
將所述訓練描述向量輸入到分類模型中,獲得所述分類模型輸出的類別;
將所述訓練描述向量以及所述類別的信息輸入到序列標注模型中,獲得所述序列標注模型輸出的、對所述訓練文本中詞語的標注結果;
根據所述分類模型輸出的類別、所述序列標注模型的標注結果、以及訓練文本所標記的屬性名和相應的屬性值,確定所述分類模型和所述序列標注模型的聯合損失;
基于所述聯合損失,對所述分類模型和所述序列標注模型的參數進行調整。
7.根據權利要求1所述的信息抽取方法,其中,所述分類模型包括一個或多個子分類模型,每個子分類模型對應一種屬性名,所述子分類模型的分類結果表示輸入的描述向量所對應的文本是否具備相應的屬性名。
8.一種信息抽取裝置,包括:
描述向量確定模塊,被配置為確定物品的描述文本所對應的描述向量;
屬性名獲得模塊,被配置為將所述描述向量輸入到預先訓練的分類模型中,獲得所述分類模型輸出的類別,其中,輸出的類別表示所述物品所具備的屬性名;
屬性值獲得模塊,被配置為將所述描述向量以及所述物品的屬性名信息輸入到預先訓練的序列標注模型中,獲得所述序列標注模型輸出的、對所述描述文本中詞語的標注結果,其中,被標注的詞語表示所述物品的屬性名所對應的屬性值。
9.根據權利要求8所述的信息抽取裝置,其中,所述描述向量確定模塊進一步被配置為將包括預設的占位符和所述物品的描述文本的數據輸入到編碼器中,獲得所述編碼器輸出的、所述描述文本所對應的描述向量,其中,所述描述向量中包括所述占位符對應的、所述描述文本的整體向量,以及所述描述文本中每個詞語的向量。
10.根據權利要求9所述的信息抽取裝置,其中,所述編碼器為變形器的雙向編碼器表示BERT。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于京東科技控股股份有限公司,未經京東科技控股股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110301488.1/1.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





