[發明專利]一種基于深度學習的結構化信息抽取方法有效
| 申請號: | 201710139457.4 | 申請日: | 2017-03-10 |
| 公開(公告)號: | CN106933804B | 公開(公告)日: | 2020-03-31 |
| 發明(設計)人: | 謝晨昊;梁家卿;肖仰華 | 申請(專利權)人: | 上海數眼科技發展有限公司 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279 |
| 代理公司: | 蘇州國誠專利代理有限公司 32293 | 代理人: | 韓鳳 |
| 地址: | 200000 上海*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 結構 信息 抽取 方法 | ||
1.一種基于深度學習的結構化信息抽取方法,包括:
步驟1)采用遠程監控來構建大規模標記數據,包括:
使用現有的維基百科提供遠程監督來構建提取器;其中,維基百科信息框包含關于實體的結構化事實,這些事實也在實體網頁的自由文本部分中提及,使用在信息框中表達事實的句子作為訓練數據;
步驟2)利用先驗知識,其具有類型和短語信息,整合到結構化信息抽取模型中;其中,自然語言句子中的單詞的標簽與其先前的單詞及其連續的單詞相關;
步驟3)使用雙向隱藏的LSTM層來利用過去和未來的輸入特征;將每個句子以序列的形式輸入一個雙向的LSTM模型中;
步驟4)最終輸出標記序列,其具有真或假標記,且具有與輸入單詞序列相等的長度。
2.根據權利要求1所述的基于深度學習的結構化信息抽取方法,其特征在于,步驟1),具體包括:
對于謂詞“A”,將維基百科的信息框中存在該謂詞的實體篩選出來;
然后取出這些實體的描述文本,將其各自對應的回答語句或者詞語在文本中標記出來;
最終制成對于謂詞“A”的結構化信息抽取器的訓練數據,其中,A可為任何謂詞。
3.根據權利要求1所述的基于深度學習的結構化信息抽取方法,其特征在于,步驟2),具體包括:
對于文本中出現的回答語句或者詞語“B”,除了傳統的詞向量表示之外,再會加上一個標記,來表示這是一個短語;
除此之外,對于文本中出現的實體,也會標注其類型信息,并形成有多個標簽。
4.根據權利要求1所述的基于深度學習的結構化信息抽取方法,其特征在于,步驟4),具體包括:
針對某一語句,獲取其語句中包括的詞語,并對詞語進行標注,其中,標記0為假,即不是要抽取的信息,標記1為真,即是要抽取的信息。
5.根據權利要求1所述的基于深度學習的結構化信息抽取方法,其特征在于,步驟1),具體包括:
假設構造謂詞p的訓練數據集,首先尋找在其信息框中出現p的實體;從信息框中,首先找到對象o,然后,在提到o的維基百科文章頁面中的大多數句子表示關系<s,p,o>,這些句子中任何出現的o都標記為1。
6.根據權利要求1所述的基于深度學習的結構化信息抽取方法,其特征在于,步驟3)中,LSTM模型中,前向層和后向層都包含128個LSTM單元,每個向前單元的內容由以下一組公式詳細闡述:
其中σ是對數sigmoid函數,i,f,o和c分別是輸入門(input gate),忘門(forgetgate),輸出門(output gate)和單元激活向量(cell activation vector);
后向層的輸出由類似的方程計算,唯一的區別是序列順序被顛倒,即,等式4中的下標t-1被替換為t+1,此外,Bi-LSTM層被堆疊2次以構建更深的網絡,對于每個輸入單詞,LSTM層的輸出是前向和后向LSTM層輸出的連接:
7.根據權利要求6所述的基于深度學習的結構化信息抽取方法,其特征在于,步驟4)中,具體包括:
令堆疊Bi-LSTM的最終輸出為Lt*,使用S形函數σ來導出第t個標記的分數:
將yt大于閾值α的任何標記標記為真,在一個句子中,多個標記可能被標記為真,將對應于連續的真標記的令牌的序列的任何短語用作對象。
8.根據權利要求7所述的基于深度學習的結構化信息抽取方法,其特征在于,還設計一個目標函數來訓練我們的模型,具體包括:
使用在二分類問題里被廣泛使用的二元交叉熵(binary cross entropy):
其中是第t個標記的真實值,是在訓練數據生成階段生成的。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海數眼科技發展有限公司,未經上海數眼科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710139457.4/1.html,轉載請聲明來源鉆瓜專利網。





