[發明專利]基于水環境知識圖譜增強關系的上下文參數中文實體預測方法在審
| 申請號: | 202210026721.4 | 申請日: | 2022-01-11 |
| 公開(公告)號: | CN114444507A | 公開(公告)日: | 2022-05-06 |
| 發明(設計)人: | 畢敬;姜廣;喬俊飛 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/30;G06N3/04 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100124 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 水環境 知識 圖譜 增強 關系 上下文 參數 中文 實體 預測 方法 | ||
1.一種基于水環境知識圖譜增強關系的上下文參數中文實體預測方法,其特征在于,包括如下步驟:
步驟1:對文本數據的預處理,使用序列標注模式(Begin Inside Outside EndSingle,BIOES)標注待處理的文本序列;
步驟2:文本標注序列的命名實體的識別;
步驟3:文本標注序列的命名實體之間關系的抽取;
步驟4:命名實體關系上下文參數的生成;
步驟5:根據命名實體識別的頭部實體和命名實體關系生成的上下文參數預測命名實體識別的尾部實體。
2.根據權利要求1所述的基于水環境知識圖譜增強關系的上下文參數中文實體預測方法,其特征在于,步驟1中對中文文本數據進行處理,具體為:
步驟1:進行BIOES的編碼,將中文文本的每一行的數據的每一個漢字存入一個新的文件中,該文件中的每一行包含兩個字段,第一個字段是一個漢字,這個漢字就是每一行句子中的每個漢字,第二個字段就是BIOES編碼的標志,兩個字段之間使用空格分割,句子和句子之間使用一個空行進行分割,表示一個句子的結束。在BIOES編碼中,其中O表示無關重要的漢字,B表示要識別中文實體的開始漢字,I表示識別中文實體的中間漢字,E表示要識別中文實體的結束漢字,S表示可以單個漢字構成的中文實體;
步驟2:根據文本進行漢字的詞向量化,統計文本不同漢字的個數,指定使用的維度來表示一個漢字的詞向量,將其傳入模型中,生成漢字的詞向量矩陣,詞向量矩陣是計算機可以識別的數據輸入。同時生成漢字到下標之間的字典映射,下標到漢字的字典映射,關系到下標的字典映射,下標到關系的字典映射,實體的關系是根據文本數據,人工指定的實體關系;
步驟3:對文本中的每個句子生成新的文本,在每個句子后面添加新的字段,命名實體之間的關系,即頭部實體、頭部實體類別、頭部實體在句子中出現的索引位置、尾部實體、尾部實體類別、尾部實體在句子中出現的索引位置,字段之間使用“#”分割開。
3.根據權利要求1所述的基于水環境知識圖譜增強關系的上下文參數中文實體預測方法,其特征在于,步驟2具體為:
對命名實體識別(Named Entities Recognition,NER)問題進行抽象建模,給定一個句子中漢字標識符集合w=(w1,w2,...,wN),NER輸出一個三元組<Is,Ie,t>的列表,列表中的每個三元組代表w中的一個命名實體。此處Is∈[1,N],Ie∈[1,N],分別表示為命名實體的起始索引以及結束索引;t指代從預定義類別中選擇的實體類別。
根據權利要求2中步驟1和步驟2所述方法,將構建文本詞向量矩陣,批量讀取BIOES編碼后的文本數據中的編碼標識以及在漢字到下標的字典中取出漢字對應的下標輸入到模型中,識別出給定文本句子中的實體。
4.根據權利要求1所述的基于水環境知識圖譜增強關系的上下文參數中文實體預測方法,其特征在于,步驟3具體為:
對命名實體關系抽取(Named Entities Relation Extraction,NRE)問題進行抽象建模,給定一個句子中漢字標識符集合w=(w1,w2,...,wN),將w詞向量化后輸入到模型中,NRE輸出一個三元組<es,r,ee>列表,列表中的每個三元組代表w中的一對命名實體之間的關系。此處es,ee分別表示為句子中頭部命名實體和尾部命名實體;r指代從預定義類別中選擇的實體之間關系類別。
根據權利要求2中步驟3和權利要求3中所述方法,將權利要求2中步驟3中的每行記錄中的關系字段去除掉,將構建文本詞向量矩陣,批量讀取BIOES編碼后的文本數據中的編碼標識以及在漢字到下標的字典中取出漢字對應的下標輸入到多元關系數據嵌入(Translation Embeddings for modeling multi-relation data,TransE)模型中,識別出給定文本句子中的實體和實體之間的關系。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210026721.4/1.html,轉載請聲明來源鉆瓜專利網。





