[發明專利]一種基于文本挖掘的Al-Si合金材料實體關系抽取方法在審
| 申請號: | 202110017771.1 | 申請日: | 2021-01-07 |
| 公開(公告)號: | CN112685513A | 公開(公告)日: | 2021-04-20 |
| 發明(設計)人: | 劉英莉;李武亮;么長慧;沈韜 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F16/28 | 分類號: | G06F16/28;G06N3/04;G06N3/08;G16C60/00 |
| 代理公司: | 昆明同聚專利代理有限公司 53214 | 代理人: | 王遠同 |
| 地址: | 650000 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 文本 挖掘 al si 合金材料 實體 關系 抽取 方法 | ||
1.一種基于文本挖掘的Al-Si合金材料實體關系抽取方法,具體包括如下步驟:
步驟S1,構造語料集,收集整理Al-Si合金的材料科學文獻,將材料科學文獻按句子進行切分,形成句子語料集;根據制定的Al-Si合金關系抽取語料庫構建標準,利用數據標注平臺對句子語料集中的語料數據進行標注,形成標注數據;按8:1的比例將標注后的句子語料集隨機分為訓練語料集和測試語料集;
步驟S2,通過資料收集,人工整理出材料實體間的多種關系,采用端到端的聯合模型,對材料實體識別與關系抽取任務進行聯合建模,將訓練語料輸入至聯合模型進行訓練和測試,生成關系抽取模型;
步驟S3,使用關系抽取模型預測測試語料文本中的實體之間的關系。
2.根據權利要求1所述的基于文本挖掘的Al-Si合金材料實體關系抽取方法,其特征在于:對步驟S2中所述的材料實體包括以下11種實體類型:含量、元素、合金、實驗、實驗結果、測試名、測試值、測試圖、相、參數名、參數值;所述多種關系包括以下13種關系:含量-元素、元素-合金、合金-實驗、實驗-實驗結果、實驗-參數名、實驗結果-參數名、參數名-參數值、合金-測試名、測試名-參數名、測試名-測試值、測試名-測試圖、測試名-相、相-測試值。
3.根據權利要求1所述的基于文本挖掘的Al-Si合金材料實體關系抽取方法,其特征在于:步驟S2中關系抽取模型包括:
S21對訓練語料進行預處理,將預處理后的數據輸入至ELMo模型得到每個詞的詞向量;
S22采用將實體識別與關系抽取進行聯合的端到端建模任務,將關系抽取視為多頭選擇問題,為每一個實體識別潛在的多種關系來解決實體關系重疊問題;通過基于深度神經網絡的BiLSTM模型、CRF模型以及sigmoid函數同時進行材料科學文獻中的實體識別和關系抽??;
S23將訓練語料輸入至聯合模型進行訓練和測試,生成關系抽取模型,在訓練過程中單獨留出樣本集,將其用于調整模型的超參數并對模型進行初步評估。
4.根據權利要求3所述的基于文本挖掘的Al-Si合金材料實體關系抽取方法,其特征在于,將訓練語料輸入至聯合模型進行訓練和測試,生成關系抽取模型,訓練和測試包括以下幾個部分:
(1)雙向長短期記憶神經網絡層:采用雙向長短期記憶神經網絡對文獻句子中所有的詞向量進行雙向編碼得到雙向的信息,包括前向向量和反向向量步長為i的輸出:
(2)條件隨機場層:在NER中使用一個線性鏈的CRF,計算每個令牌最可能的實體標簽,每個實體標簽計算每個令牌Wi的分數:
s(e)(hi)=V(e)f(U(e)hi+b(e)) (2)
其中上標(e)表示NER任務,f(·)是逐元素激活函數relu.V(e)∈Rp×l,U(e)∈Rl×2d,b(e)∈Rl,d為LSTM的隱藏大小,p為NER標簽的數量,l為圖層寬度;
假設詞向量為W,則得分向量序列為s1(e),...,sn(e),標簽預測向量為y1(e),...,yn(e),線性鏈得分定義為:
其中是令牌Wi的預測標簽的分數;T是一個正方形轉換矩陣,其中每個條目代表從一個標簽到另一個標簽的轉換分數;T∈R(p+2)×(p+2),y01(e)和yn(e)是分別代表句子開頭和結尾的兩個輔助標簽;然后,將給定標簽序列在輸入句子w的所有可能標簽序列上的概率定義為:
(3)標簽嵌入:用于學習實體識別標簽的嵌入,獲得令牌wi的標簽嵌入gi;下一層的輸入為隱藏LSTM狀態hi和令牌wi的標簽嵌入gi的拼接:
zi=[hi;gi],i=0,...,n
(4)Sigmoid Layer:使用sigmoid損失來獲得多個關系;每一個單詞可以與其他的單詞有多種關系,預測的元組中,是頭向量,是每個令牌wi對應的關系的向量;給定一個令牌序列W和一組關系標簽R作為輸入,目標是識別每個令牌wi,i=0,...,n最有可能的頭向量和最可能對應的關系標簽給定標簽rk,計算令牌wi和wj之間的分數:
s(r)(zj,zi,rk)=V(r)f(U(r)zj+W(r)zi+b(r)) (5)
上角標r表示關系抽取任務,f()是激活函數,V(r)∈Rl,U(r)∈Rl×(2d+b),W(r)∈Rl×(2d+b),b(r)∈Rl,其中d是LSTM隱藏層的大小,l是LSTM層的寬度;
Pr(head=wj,label=rk|wi)=σ(s(r)(zj,zi,rk) (6)
上面公式為令牌wj為令牌wi的頭的概率,其關系標簽為rk。
5.根據權利要求1所述的基于文本挖掘的Al-Si合金材料實體關系抽取方法,其特征在于,步驟S3中使用關系抽取模型預測測試語料文本中的實體之間的關系包括:
將分割后所得到的句子輸入到關系抽取模型,提取出實體關系對;
對提取出的實體關系對進行人工排查,剔除錯誤的實體關系對。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110017771.1/1.html,轉載請聲明來源鉆瓜專利網。





