[發明專利]一種基于觸發詞規則和Attention-BiLSTM的中文人物關系提取方法在審
| 申請號: | 202110103336.0 | 申請日: | 2021-01-26 |
| 公開(公告)號: | CN112818683A | 公開(公告)日: | 2021-05-18 |
| 發明(設計)人: | 王小華;潘曉光;焦璐璐;張娜;宋曉晨 | 申請(專利權)人: | 山西三友和智慧信息技術股份有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/295;G06F40/242;G06F40/30;G06F16/951;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 太原榮信德知識產權代理事務所(特殊普通合伙) 14119 | 代理人: | 楊凱;連慧敏 |
| 地址: | 030006 山西省*** | 國省代碼: | 山西;14 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 觸發 規則 attention bilstm 中文 人物 關系 提取 方法 | ||
1.一種基于觸發詞規則和Attention-BiLSTM的中文人物關系提取方法,其特征在于,包括以下步驟:
S100、基于觸發詞的自動標注訓練數據過程:通過網絡爬蟲技術、分詞、命名實體識別等技術以及規則方法,得到有標注的人物關系三元組;
S200、訓練過程:將上一過程獲得的訓練數據經過文本向量化輸入,接著,迭代訓練Attention-BiLSTM神經網絡模型,從而得到一個訓練好的Attention-BiLSTM人物關系分類模型;
S300、測試過程:測試數據從已有的中文人物關系提取數據集中獲得,利用Hanlp和LTP技術對測試數據進行預處理,得到分詞和人物實體識別的結果,將結果進行向量化,向量化過程的結果作為已訓練好的Attention-BiLSTM模型的輸入,得到人物關系分類的結果,最后將其組織為人物關系三元組并結構化保存。
2.根據權利要求1所述的一種基于觸發詞規則和Attention-BiLSTM的中文人物關系提取方法,其特征在于,步驟S100的基于觸發詞的自動標注訓練數據過程中,首先通過網絡爬蟲技術從互聯網獲取大量的無標注的中文文本語料;然后經過分詞、命名實體識別技術預處理中文文本語料;接著通過規則方法實現與預定義的人物關系類型的匹配,從而得到有標注的人物關系三元組,其數據格式為實體1、實體2、關系。
3.根據權利要求1所述的一種基于觸發詞規則和Attention-BiLSTM的中文人物關系提取方法,其特征在于,步驟S100的基于觸發詞的自動標注訓練數據過程中,還包括觸發詞詞典的構建:根據數據集的標注結果,結合每個句子特征,針對每類關系所對應句子中出現的可以表現該人物關系的詞匯進行統計,按照出現次數從多到少的順序排序構建每類關系對應的詞匯庫,表示人物關系的詞匯稱為觸發詞,詞匯庫稱為觸發詞詞典。
4.根據權利要求1所述的一種基于觸發詞規則和Attention-BiLSTM的中文人物關系提取方法,其特征在于:步驟S200的訓練過程中,所述的文本向量化包括詞向量化和每個字到兩個實體間的距離向量化;詞向量化的方法是通過Bert獲取詞的向量表示;距離向量化的方法是計算句子中每個字距離兩個實體的距離,句子中每個字都得到了一個字向量和兩個距離向量,將三者組合起來作為模型的輸入,模型的輸出是人物關系對應的ID。
5.根據權利要求1所述的一種基于觸發詞規則和Attention-BiLSTM的中文人物關系提取方法,其特征在于:步驟S300中,基于觸發詞規則的提取算法是利用觸發詞詞典進行中文人物關系識別的分類算法,算法的輸入是原始文本和觸發詞詞典,輸出是人物關系三元組;
第一步利用Hanlp和LTP平臺對輸入的文本進行預處理得到有標注的句子集合;第二步對每一個有標注的句子,統計句中的人物實體的個數,如果人物實體個數小于2,則進入下一個句子,然后重新進入算法第二步,如果人物實體個數大于等于2,則進入算法的第三步;第三步將當前句子與詞典中的9類人物關系觸發詞進行匹配,按照序號從小到大的次序,如果匹配成功則返回對應的人物關系類型,如果匹配失敗則返回人物關系類型null;第四步輸出人物關系三元組,當人物實體大于2時,本算法選擇前兩個人物實體來組建人物關系三元組,格式為人物實體1,人物實體2,人物關系。
6.根據權利要求1所述的一種基于觸發詞規則和Attention-BiLSTM的中文人物關系提取方法,其特征在于:步驟S300中,基于觸發詞規則的提取算法:
輸入:文本;觸發詞詞典;
輸出:人物關系三元組;統計每個句子中人物實體個數;
使用Hanlp和LTP處理句子得到labels。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山西三友和智慧信息技術股份有限公司,未經山西三友和智慧信息技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110103336.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于文本游戲的強化學習情感分析系統
- 下一篇:反循環煤粉取樣裝置





