[發明專利]知識抽取方法、裝置、電子設備及存儲介質在審
| 申請號: | 202010318382.8 | 申請日: | 2020-04-21 |
| 公開(公告)號: | CN111639498A | 公開(公告)日: | 2020-09-08 |
| 發明(設計)人: | 張聰 | 申請(專利權)人: | 平安國際智慧城市科技股份有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/242;G06F40/216;G06F40/30;G06F16/36 |
| 代理公司: | 深圳市賽恩倍吉知識產權代理有限公司 44334 | 代理人: | 劉麗華;孫芬 |
| 地址: | 518000 廣東省深圳市前海深港合*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 知識 抽取 方法 裝置 電子設備 存儲 介質 | ||
1.一種知識抽取方法,其特征在于,所述知識抽取方法包括:
當接收到知識抽取指令時,獲取源數據;
對所述源數據進行預處理,得到文本數據;
通過基于Bi-LSTM+CRF的序列標注模型識別所述文本數據中的實體,得到初始實體列表;
基于預先配置的知識圖譜對所述初始實體列表進行擴展,得到候選實體列表;
采用基于Attention-DSSM算法訓練的語義匹配模型對所述候選實體列表進行消歧處理,得到目標實體;
將所述目標實體鏈接到所述知識圖譜的節點上;
基于所述節點上的信息進行知識抽取。
2.如權利要求1所述的知識抽取方法,其特征在于,所述對所述源數據進行預處理,得到文本數據包括:
當所述源數據為圖片類型時,將所述源數據轉換為初始文本,對所述初始文本進行過濾及清洗,得到過濾后的文本,基于UTF-8編碼算法對所述過濾后的文本進行編碼,得到所述文本數據;或者
當所述源數據為文本類型時,對所述源數據進行過濾及清洗,得到過濾后的文本,基于UTF-8編碼算法對所述過濾后的文本進行編碼,得到所述文本數據。
3.如權利要求1所述的知識抽取方法,其特征在于,所述知識抽取方法還包括:
根據預先定義的需求數據配置序列標注模式;
將所述序列標注模式添加到Bi-LSTM+CRF模型中,得到所述序列標注模型。
4.如權利要求1所述的知識抽取方法,其特征在于,所述通過基于Bi-LSTM+CRF的序列標注模型識別所述文本數據中的實體,得到初始實體列表包括:
將所述文本數據輸入到所述基于Bi-LSTM+CRF的序列標注模型中,并獲取Softmax層中每個序列位置上對應的各個標簽的輸出概率以及轉移概率;
對于每個序列位置,計算各個標簽的輸出概率以及轉移概率的和作為各個標簽的分值;
將分值最高的標簽確定為每個序列位置的輸出標簽;
組合每個序列位置的輸出標簽,得到所述初始實體列表。
5.如權利要求1所述的知識抽取方法,其特征在于,所述基于預先配置的知識圖譜對所述初始實體列表進行擴展,得到候選實體列表包括:
計算所述初始實體列表中的每個實體與所述知識圖譜中各個節點上實體的余弦相似度;
從各個節點上獲取余弦相似度大于或者等于預設相似度的至少一個實體作為候選實體;
根據所述初始實體列表及所述候選實體構建所述候選實體列表。
6.如權利要求1所述的知識抽取方法,其特征在于,所述采用基于Attention-DSSM算法訓練的語義匹配模型對所述候選實體列表進行消歧處理,得到目標實體包括:
基于One-Hot編碼算法對所述候選實體列表中的每個實體進行編碼,得到每個實體的詞ID;
將每個實體的詞ID輸入到預先配置的詞典中,輸出每個實體的詞向量;
基于Attention機制處理每個實體的詞向量,得到每個實體的語義表示;
將每個實體的語義表示在Interaction層進行交互,輸出每個實體交互后的語義向量;
將每個實體交互后的語義向量在匹配層與所述知識圖譜節點上的實體進行匹配,輸出匹配度最高的實體作為所述目標實體。
7.如權利要求1所述的知識抽取方法,其特征在于,所述基于所述節點上的信息進行知識抽取包括:
從所述節點上的信息中獲取節點間的至少一個路徑以及每個路徑上的關聯信息;
基于每個路徑上的關聯信息以及對應的路徑抽取出至少一個關系網。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安國際智慧城市科技股份有限公司,未經平安國際智慧城市科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010318382.8/1.html,轉載請聲明來源鉆瓜專利網。





