[發明專利]一種面向國防科技領域的知識處理方法及系統有效
| 申請號: | 201811226250.1 | 申請日: | 2018-10-22 |
| 公開(公告)號: | CN109522396B | 公開(公告)日: | 2020-12-25 |
| 發明(設計)人: | 晏裕生;廖鎮;孫孟陽;姚晗;江洋 | 申請(專利權)人: | 中國船舶工業綜合技術經濟研究院 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/36;G06F40/295 |
| 代理公司: | 北京高沃律師事務所 11569 | 代理人: | 程華 |
| 地址: | 100000 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 國防科技 領域 知識 處理 方法 系統 | ||
1.一種面向國防科技領域的知識處理方法,其特征在于,所述知識處理方法包括:
獲取國防科技領域的多個文本資料;
從所述文本資料中提取初始的知識本體;所述初始的知識本體為三元組集合,每一個三元組都包括實體、關系和描述三個元素;
對所述多個文本資料進行分詞,得到多個詞段;
對于每個所述詞段,確定對應的詞段組合;
所述對于每個所述詞段,確定對應的詞段組合,具體包括:
對每個所述詞段的上文和下文分別進行倒序排列索引,形成上下文倒排表,所述上下文倒排表包括多個詞段組合;
計算每個所述詞段組合的信息熵;
根據所述信息熵的數值,篩選出信息熵大于設定信息熵閾值的詞段組合,形成篩選后的詞段組合;
將所述篩選后的詞段組合在所述上下文倒排表中遍歷,計算每個篩選后的詞段組合的共現概率;
根據共現概率的數值,篩選出共現概率大于設定概率閾值的詞段組合;
將共現概率大于設定概率閾值的詞段組合,確定為新的知識本體;
將所述新的知識本體補充入所述初始的知識本體中,形成更新后的知識本體;所述更新后的知識本體用于國防科技領域智能問答時使用。
2.根據權利要求1所述的知識處理方法,其特征在于,所述從所述文本資料中提取初始的知識本體,具體包括:
從所述文本資料中識別出命名實體,完成實體抽取過程;
從國防科技領域語料庫中提取實體之間的關聯關系,通過關系將實體聯系起來,完成關系抽取過程;
從多個數據源中獲取每個實體的屬性信息,形成每個實體的描述元素,完成屬性抽取的過程;
根據每個命名實體、實體之間的關聯關系和每個實體的屬性信息,形成每個實體對應的三元組,進而形成所述初始的知識本體。
3.根據權利要求1所述的知識處理方法,其特征在于,所述將共現概率大于設定概率閾值的詞段組合,確定為新的知識本體,之后還包括:
將所述新的知識本體上傳至專家審核系統;所述專家審核系統用于多名專家對所述新的知識本體進行審核;
獲取專家的審核意見;
根據所述專家的審核意見對所述新的知識本體進行修正。
4.一種面向國防科技領域的知識處理系統,其特征在于,所述知識處理系統包括:
文本資料獲取模塊,用于獲取國防科技領域的多個文本資料;
初始的知識本體提取模塊,用于從所述文本資料中提取初始的知識本體;所述初始的知識本體為三元組集合,每一個三元組都包括實體、關系和描述三個元素;
分詞模塊,用于對所述多個文本資料進行分詞,得到多個詞段;
詞段組合確定模塊,用于對于每個所述詞段,確定對應的詞段組合;對于每個所述詞段,所述詞段組合確定模塊對所述詞段的上文和下文分別進行倒序排列索引,形成上下文倒排表,所述上下文倒排表包括多個詞段組合;
信息熵計算模塊,用于將共現概率大于設定概率閾值的詞段組合,確定為新的知識本體之前,計算每個所述詞段組合的信息熵;
第一篩選模塊,用于根據所述信息熵的數值,篩選出信息熵大于設定信息熵閾值的詞段組合,形成篩選后的詞段組合;
共現概率計算模塊,用于將所述篩選后的詞段組合在所述上下文倒排表中遍歷,計算每個篩選后的詞段組合的共現概率;
第二篩選模塊,用于根據共現概率的數值,篩選出共現概率大于設定概率閾值的詞段組合;
新的知識本體確定模塊,用于將共現概率大于設定概率閾值的詞段組合,確定為新的知識本體;
更新后的知識本體形成模塊,用于將所述新的知識本體補充入所述初始的知識本體中,形成更新后的知識本體;所述更新后的知識本體用于國防科技領域智能問答時使用。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國船舶工業綜合技術經濟研究院,未經中國船舶工業綜合技術經濟研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811226250.1/1.html,轉載請聲明來源鉆瓜專利網。





