[發(fā)明專利]信息抽取方法及裝置、設備、計算機可讀存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202010780614.1 | 申請日: | 2020-08-04 |
| 公開(公告)號: | CN111931503A | 公開(公告)日: | 2020-11-13 |
| 發(fā)明(設計)人: | 閆昭 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F16/35;G06F16/36;G06N3/04 |
| 代理公司: | 深圳市隆天聯(lián)鼎知識產(chǎn)權代理有限公司 44232 | 代理人: | 葉虹 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 信息 抽取 方法 裝置 設備 計算機 可讀 存儲 介質(zhì) | ||
1.一種信息抽取方法,其特征在于,包括:
根據(jù)預設的實體類型抽取非結構化文本中含有的頭實體;
對所述非結構化文本中含有的頭實體進行關系分類處理,獲得所述非結構化文本中含有的與所述頭實體對應的實體關系;
根據(jù)所述頭實體和所述頭實體對應的實體關系構建實體關系問題;
在所述非結構化文本中抽取尾實體,所述尾實體與所述實體關系問題中的頭實體以及實體關系相對應,并基于所述實體關系問題中的頭實體及實體關系、以及所述尾實體得到所述非結構化文本所含有的結構化信息。
2.根據(jù)權利要求1所述的方法,其特征在于,在所述非結構化文本中抽取尾實體,包括:
將所述非結構化文本與所述實體關系問題進行拼接,得到問題拼接文本;
對所述問題拼接文本中的各個字符進行特征向量提取,獲得由所述各個字符對應的特征向量組成的特征向量序列,所述各個字符對應的特征向量含有所述問題拼接文本中的其它字符的特征信息;
根據(jù)尾實體分類模型對所述特征向量序列進行類型識別處理,獲得所述非結構化文本中含有的尾實體。
3.根據(jù)權利要求2所述的方法,其特征在于,根據(jù)尾實體分類模型對所述特征向量序列進行類型識別處理,獲得所述非結構化文本中含有的尾實體,包括:
將所述特征向量序列輸入所述尾實體分類模型中,獲得所述尾實體分類模型輸出的針對所述特征向量序列中的各個特征向量識別到的字符類型;
在所述非結構化文本中確定字符類型分別為尾實體的起始字符、中間字符以及結尾字符對應的各個目標字符,并對各個目標字符依次組合得到所述非結構化文本中含有的尾實體。
4.根據(jù)權利要求1所述的方法,其特征在于,根據(jù)預設的實體類型抽取非結構化文本中含有的頭實體,包括:
獲取預設的實體類型名稱庫;
根據(jù)所述實體類型名稱庫中含有的多個實體類型名稱,在所述非結構化文本中進行實體類型名稱所對應頭實體的提取,以獲得所述非結構化文本中含有的頭實體集合。
5.根據(jù)權利要求4所述的方法,其特征在于,根據(jù)所述實體類型名稱庫中含有的多個實體類型名稱,在所述非結構化文本中進行實體類型名稱所對應頭實體的提取,包括:
將實體類型名稱拼接在所述非結構化文本之后,并在所述非結構化文本的起始位置添加第一指定字符,在所述實體類型名稱的結束位置添加第二指定字符,以及在所述非結構化文本與所述實體類型名稱之間的拼接位置添加所述第二指定字符,得到類型拼接文本;
在所述類型拼接文本中識別與所述實體類型名稱相對應的頭實體。
6.根據(jù)權利要求1所述的方法,其特征在于,對所述非結構化文本中含有的頭實體進行關系分類處理,獲得所述非結構化文本中含有的與所述頭實體對應的實體關系,包括:
確定所述非結構化文本中的頭實體所對應的局部特征向量;
根據(jù)關系分類模型對所述局部特征向量進行關系類型識別,獲得所述頭實體對應于候選實體關系的分值;
將分值大于分數(shù)閾值的候選實體關系確定為所述頭實體對應的實體關系。
7.根據(jù)權利要求6所述的方法,其特征在于,確定所述非結構化文本中的頭實體所對應的局部特征向量,包括:
獲取所述頭實體中的起始字符對應的特征向量,將所述起始字符對應的特征向量作為所述頭實體對應的局部特征向量;或者,
將所述頭實體中的起始字符、中間字符以及結尾字符分別對應的特征向量之和作為所述頭實體對應的局部特征向量;或者,
將所述頭實體中的起始字符、中間字符以及結尾字符分別對應的特征向量之和的平均向量作為所述頭實體對應的局部特征向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010780614.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設備、信息再現(xiàn)方法和信息再現(xiàn)設備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





