[發明專利]三元組信息提取方法、裝置、設備及計算機可讀存儲介質在審
| 申請號: | 202011415288.0 | 申請日: | 2020-12-03 |
| 公開(公告)號: | CN112507125A | 公開(公告)日: | 2021-03-16 |
| 發明(設計)人: | 侯麗;劉翔 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/951;G06N5/02 |
| 代理公司: | 深圳市世紀恒程知識產權代理事務所 44287 | 代理人: | 魏潤潔 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 三元 信息 提取 方法 裝置 設備 計算機 可讀 存儲 介質 | ||
1.一種三元組信息提取方法,其特征在于,所述三元組信息提取方法包括以下步驟:
通過爬蟲工具在互聯網數據中爬取海量的詞條信息,其中,所述詞條信息包含多個不同領域的數據;
基于所述詞條信息,確定所述詞條信息中包含三元組信息的句子,并初步提取所述句子中的三元組信息,得到初始三元組信息;
基于所述初始三元組信息,對任意的普通文本進行數據標注,得到標注后的普通文本,并將所述標注后的普通文本作為訓練文本;
基于所述訓練文本對bert預訓練語言模型進行訓練,在訓練所述bert預訓練語言模型完成時得到三元組抽取模型,并基于所述三元組抽取模型確定任意文本對應的三元組信息。
2.如權利要求1所述的三元組信息提取方法,其特征在于,所述基于所述詞條信息,確定所述詞條信息中包含三元組信息的句子,并初步提取所述句子中的三元組信息,得到初始三元組信息的步驟包括:
通過文本識別模型提取所述詞條信息中的有用文本,得到文本信息,所述詞條信息中的有用文本包括半結構化的第一文本信息和非結構化的第二文本信息;
對所述文本信息進行解析,得到所述文本信息中包含三元組信息的句子;
提取所述句子中的三元組信息,得到初始三元組信息。
3.如權利要求1所述的三元組信息提取方法,其特征在于,所述基于所述三元組抽取模型確定任意文本對應的三元組信息的步驟之后,還包括:
將所述任意文本對應的三元組信息輸入至預設的知識體系框架,以構建包含多領域數據的知識體系圖譜;
在接收到用戶輸入的提問信息時,根據所述提問信息對所述知識圖譜中所包含的知識數據進行匹配,確定所述提問信息對應的回答信息。
4.如權利要求3所述的三元組信息提取方法,其特征在于,所述三元組信息包括關聯信息,所述將所述任意文本對應的三元組信息輸入至預設的知識體系框架,以構建包含多領域數據的知識體系圖譜的步驟包括:
將所述三元組信息輸入至預設的知識體系框架,并獲取所述各所述三元組信息的關聯信息;
根據各所述三元組信息的關聯信息,對各所述三元組進行關聯整理,確定三元組信息樹;
基于所述三元組信息樹,構建包含多領域數據的知識體系圖譜。
5.如權利要求3所述的三元組信息提取方法,其特征在于,所述將所述任意文本對應的三元組信息輸入至預設的知識體系框架,以構建包含多領域數據的知識體系圖譜的步驟之后,還包括:
若接收到對新增數據信息進行處理的請求信息,根據預設的信息校驗規則對所述新增數據信息進行校驗處理;
若所述新增數據信息校驗通過,則將所述新增數據信息添加至所述知識體系圖譜中以得到更新后的知識體系圖譜。
6.如權利要求1至5任一項所述的三元組信息提取方法,其特征在于,所述基于所述訓練文本對bert預訓練語言模型進行訓練,在訓練所述bert預訓練語言模型完成時得到三元組抽取模型的步驟包括:
將所述訓練文本輸入到所述bert預訓練語言模型中,確定所述訓練文本中實體的實體鏈接關系;
根據所述普通文本對應的實際實體鏈接關系以及所述實體鏈接關系,確定模型調整參數,其中,所述實際實體鏈接關系由所述普通文本的標注信息確定;
基于所述模型調整參數對bert預訓練語言模型進行訓練,在訓練所述bert預訓練語言模型完成時得到三元組抽取模型。
7.如權利要求6所述的三元組信息提取方法,其特征在于,所述bert預訓練語言模型包括transformer結構,所述將所述訓練文本輸入到所述bert預訓練語言模型中,確定所述訓練文本中實體的實體鏈接關系的步驟包括:
將所述訓練文本輸入到所述bert預訓練語言模型中,通過所述transformer結構,得到所述訓練文本中每個字符的向量表示;
將所述訓練文本中實體信息的向量表示作為所述訓練文本中實體的實體鏈接關系。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011415288.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:健身控制方法及相關裝置
- 下一篇:換蓋板機
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





