[發明專利]氣象海洋非結構化文本知識構建方法、裝置及電子設備有效
| 申請號: | 202310722007.3 | 申請日: | 2023-06-19 |
| 公開(公告)號: | CN116450856B | 公開(公告)日: | 2023-09-12 |
| 發明(設計)人: | 徐焱;王宇翔;孫萬有;何思遠 | 申請(專利權)人: | 航天宏圖信息技術股份有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F40/211;G06F40/242;G06F40/289 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 丁銀澤 |
| 地址: | 100094 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 氣象 海洋 結構 文本 知識 構建 方法 裝置 電子設備 | ||
1.一種氣象海洋非結構化文本知識構建方法,其特征在于,包括:
獲取待構建的氣象海洋非結構化文本集;
根據所述氣象海洋非結構化文本集確定氣象海洋環境領域的目標核心概念;
基于所述目標核心概念對所述氣象海洋非結構化文本集進行知識實體抽取,以確定目標知識實體;
通過預先訓練的關系識別模型,基于所述氣象海洋非結構化文本集和所述目標知識實體,識別所述目標知識實體之間的實體關系;
基于所述目標知識實體和所述目標知識實體之間的所述實體關系,構建所述氣象海洋環境領域的知識圖譜;
根據所述氣象海洋非結構化文本集確定氣象海洋環境領域的目標核心概念,包括:
按照氣象海洋環境領域中的多個子領域,將所述氣象海洋非結構化文本集劃分為每個所述子領域對應的非結構化文本子集;
基于每個所述子領域對應的所述非結構化文本子集,獲取初始核心概念;其中,所述初始核心概念是通過對每個所述子領域對應的所述非結構化文本子集進行專家初步提取和專家交叉提取得到的;
爬取每個所述初始核心概念匹配的目標解釋頁面中的解釋文本;
對每個所述解釋文本進行分詞處理得到第一分詞數據集,并確定所述第一分詞數據集中的每個第一分詞對應的第一詞頻;
如果所述第一分詞對應的所述第一詞頻大于預設詞頻閾值,將所述第一分詞補入所述初始核心概念,以得到所述氣象海洋環境領域的目標核心概念;
基于所述目標核心概念對所述氣象海洋非結構化文本集進行知識實體抽取,以確定目標知識實體,包括:
以所述目標核心概念作為自定義詞典,對所述氣象海洋非結構化文本集進行分詞處理,得到第二分詞數據集;其中,所述第二分詞數據集包括分詞列表和句法關系,所述句法關系包括至少一個謂詞和每個所述謂詞對應的若干個論元;
以所述分詞列表作為觸發詞匹配數據源,以所述句法關系作為觸發詞匹配規則,對所述氣象海洋非結構化文本集進行知識實體抽取,以確定初始知識實體;
對所述初始知識實體進行篩選得到目標知識實體。
2.根據權利要求1所述的氣象海洋非結構化文本知識構建方法,其特征在于,以所述分詞列表作為觸發詞匹配數據源,以所述句法關系作為觸發詞匹配規則,對所述氣象海洋非結構化文本集進行知識實體抽取,以確定初始知識實體,包括:
對于每個所述分詞列表,如果該分詞列表中的分句信息包含所述目標核心概念,則從該分詞列表匹配的所述句法關系中,確定所述目標核心概念所屬的第一目標謂詞;
將所述第一目標謂詞對應的每個所述論元確定為所述目標核心概念對應的第一相關論元,并將所述第一相關論元存入一階知識詞匯集;
對于每個所述分詞列表,如果該分詞列表中的分句信息包含所述一階知識詞匯集中的一階知識詞匯,則從該分詞列表匹配的所述句法關系中,確定所述一階知識詞匯所屬的第二目標謂詞;
將所述第二目標謂詞對應的每個所述論元確定為所述一階知識詞匯對應的第二相關論元,并將所述第二相關論元存入二階知識詞匯集;
對所述目標核心概念、所述一階知識詞匯和所述二階知識詞匯進行去重處理,得到初始知識實體。
3.根據權利要求2所述的氣象海洋非結構化文本知識構建方法,其特征在于,將所述第一相關論元存入一階知識詞匯集,包括:
對所述第一目標謂詞對應的每個所述第一相關論元進行分詞處理;
如果所述分詞處理成功,將所述第一相關論元中的名詞存入一階知識詞匯集;
如果所述分詞處理未成功,將所述第一相關論元存入所述一階知識詞匯集。
4.根據權利要求1所述的氣象海洋非結構化文本知識構建方法,其特征在于,對所述初始知識實體進行篩選得到目標知識實體,包括:
對于所述初始知識實體中每個第二分詞,確定該第二分詞在所述氣象海洋非結構化文本集中出現的第二詞頻;
確定所述氣象海洋非結構化文本集的總文本數量,以及確定所述氣象海洋非結構化文本集中包含該第二分詞的氣象海洋非結構化文本的文本數量,將所述總文本數量與所述文本數量的對數比確定為該第二分詞的逆文檔頻率;
將該第二分詞的所述第二詞頻與所述逆文檔頻率的乘積,確定為該第二分詞的分詞重要性;
如果所述分詞重要性大于預設重要性閾值,則將該第二分詞確定為目標知識實體。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于航天宏圖信息技術股份有限公司,未經航天宏圖信息技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310722007.3/1.html,轉載請聲明來源鉆瓜專利網。





