[發(fā)明專利]一種基于深度學(xué)習(xí)的結(jié)構(gòu)化信息抽取方法有效
| 申請(qǐng)?zhí)枺?/td> | 201710139457.4 | 申請(qǐng)日: | 2017-03-10 |
| 公開(公告)號(hào): | CN106933804B | 公開(公告)日: | 2020-03-31 |
| 發(fā)明(設(shè)計(jì))人: | 謝晨昊;梁家卿;肖仰華 | 申請(qǐng)(專利權(quán))人: | 上海數(shù)眼科技發(fā)展有限公司 |
| 主分類號(hào): | G06F40/279 | 分類號(hào): | G06F40/279 |
| 代理公司: | 蘇州國(guó)誠(chéng)專利代理有限公司 32293 | 代理人: | 韓鳳 |
| 地址: | 200000 上海*** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 學(xué)習(xí) 結(jié)構(gòu) 信息 抽取 方法 | ||
本發(fā)明公開了一種基于深度學(xué)習(xí)的結(jié)構(gòu)化信息抽取方法,包括:步驟1)采用遠(yuǎn)程監(jiān)控來構(gòu)建大規(guī)模標(biāo)記數(shù)據(jù),包括:使用現(xiàn)有的維基百科提供遠(yuǎn)程監(jiān)督來構(gòu)建提取器;其中,簽字,維基百科信息框包含關(guān)于實(shí)體的結(jié)構(gòu)化事實(shí),這些事實(shí)也在實(shí)體網(wǎng)頁的自由文本部分中提及,使用在信息框中表達(dá)事實(shí)的句子作為訓(xùn)練數(shù)據(jù);步驟2)利用先驗(yàn)知識(shí),其具有類型和短語信息,整合到結(jié)構(gòu)化信息抽取模型中;其中,自然語言句子中的單詞的標(biāo)簽與其先前的單詞及其連續(xù)的單詞相關(guān);步驟3)使用雙向隱藏的LSTM層來利用過去和未來的輸入特征;將每個(gè)句子以序列的形式輸入一個(gè)雙向的LSTM模型中;步驟4)最終輸出標(biāo)記序列,其具有真或假標(biāo)記,且具有與輸入單詞序列相等的長(zhǎng)度。
技術(shù)領(lǐng)域
本發(fā)明屬于信息處理領(lǐng)域,具體涉及一種基于深度學(xué)習(xí)的結(jié)構(gòu)化信息抽取方法和系統(tǒng)。
背景技術(shù)
結(jié)構(gòu)化信息的抽取上,很多研究在收集來自語料庫(kù)的實(shí)體的結(jié)構(gòu)化知識(shí)方面已經(jīng)做了大量工作,例如Kylin,DBpedia。這些知識(shí)庫(kù),也稱為知識(shí)圖譜,包含有關(guān)實(shí)體的豐富的事實(shí),例如貝拉克·奧巴馬的出生地是檀香山。我們通常將實(shí)體稱為主體(s),屬性或方面作為謂詞(p)和值作為對(duì)象(o)。由于知識(shí)圖譜的廣泛應(yīng)用,從語料庫(kù)提取結(jié)構(gòu)化事實(shí)(以SPO三元組的形式)越來越吸引了很多研究興趣。在此項(xiàng)技術(shù)里中,我們關(guān)注的是同時(shí)提取數(shù)千萬實(shí)體的大量謂詞的結(jié)構(gòu)化事實(shí)的問題。
具體的問題定義如下。給定一組謂詞P和大語料庫(kù),我們要以<s,p,o>的形式提取事實(shí),其中p∈P是謂詞,s是主語,o是對(duì)象。例如,假設(shè)“出生地”∈P,則從句子“...迪卡普里奧出生于加利福尼亞州好萊塢...”,我們想提取事實(shí)<萊昂納多·迪卡普里奧,出生地,加利福尼亞州好萊塢>。
一個(gè)明顯的挑戰(zhàn)是謂詞集合P可能非常大,并且很可能存在大量不同的方式來以自然語言表達(dá)每個(gè)謂詞。
大多數(shù)傳統(tǒng)方法使用句法模式來觸發(fā)提取。例如,“出生于”是謂詞“出生地”的模式。這些現(xiàn)有的方法可以基于是否自動(dòng)學(xué)習(xí)模式而被分為兩類,基于規(guī)則的方法和機(jī)器學(xué)習(xí)方法。這些方法最明顯的弱點(diǎn)是其引起的人工成本。手動(dòng)成本有兩個(gè)部分。首先,它們中的許多依賴于手工制作的規(guī)則(例如句法模式)或特征。要素工程或規(guī)則定義需要大量的領(lǐng)域?qū)I(yè)知識(shí)。真實(shí)情況甚至更糟,因?yàn)椴煌^詞的特征或規(guī)則通常是不同的。第二,基于監(jiān)督學(xué)習(xí)的解決方案需要手動(dòng)標(biāo)記的數(shù)據(jù)。對(duì)于提取大量謂詞的信息的任務(wù),人工成本通常是令人望而卻步的。傳統(tǒng)方法不僅需要巨大的人力成本,這些解決方案通常具有相對(duì)不可接受的性能,因?yàn)樗鼈冊(cè)谔幚韽?fù)雜的自然語言中的弱點(diǎn):
1.兩種方法都不支持文本中的長(zhǎng)距離依賴性。大多數(shù)提取方法僅使用文本中的局部特征,也就是說,它們通過關(guān)注連接x和y的短文本來確定x和y之間的關(guān)系。然而,在許多長(zhǎng)尾的情況下,關(guān)系通過長(zhǎng)文本體現(xiàn),即,在x和y之間存在長(zhǎng)距離依賴性。考慮以下示例,其中s=湯姆·拇指(電影),p=主演。“湯姆·拇指是一個(gè)1958幻想音樂電影導(dǎo)演喬治·帕爾和米高梅釋放。這部電影基于同名的童話故事,是一個(gè)小男人,他設(shè)法欺騙兩個(gè)決定從他那里獲得財(cái)富的盜賊。它主演了拉斯·坦布林的標(biāo)題角色,主要是英國(guó)的支持者(它在好萊塢和倫敦拍攝)...”。
2.關(guān)于主語的句子可以包含用于謂詞的多個(gè)對(duì)象,這進(jìn)一步使模式復(fù)雜化并使學(xué)習(xí)者混淆。例如,下面的句子包含3個(gè)對(duì)象(詩(shī)人,劇作家,演員)的is-A關(guān)系。“威廉·莎士比亞是英國(guó)詩(shī)人,劇作家和演員,廣泛...”。
3.我們想要提取的對(duì)象可能不一定出現(xiàn)在單個(gè)句子中。例如,讓s=德懷特·霍華德,p=效力于球隊(duì),有效對(duì)象包括休斯頓火箭,洛杉磯湖人,奧蘭多魔術(shù),出現(xiàn)在多個(gè)句子:“...在1995年,奧蘭多魔術(shù)隊(duì)選擇他...2012年8月10日,霍華德從奧蘭多交易到洛杉磯湖人在一個(gè)交易...2013年7月5日,通過Twitter宣布,他打算簽署與火箭...”。
上述示例清楚地表明,表達(dá)主體和對(duì)象之間的關(guān)系的自然語言的復(fù)雜性和豐富性遠(yuǎn)遠(yuǎn)超出了固定的手工制作的圖案或特征的集合。
發(fā)明內(nèi)容
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海數(shù)眼科技發(fā)展有限公司,未經(jīng)上海數(shù)眼科技發(fā)展有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710139457.4/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)
- 卡片結(jié)構(gòu)、插座結(jié)構(gòu)及其組合結(jié)構(gòu)
- 鋼結(jié)構(gòu)平臺(tái)結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 單元結(jié)構(gòu)、結(jié)構(gòu)部件和夾層結(jié)構(gòu)
- 鋼結(jié)構(gòu)扶梯結(jié)構(gòu)
- 鋼結(jié)構(gòu)隔墻結(jié)構(gòu)
- 鋼結(jié)構(gòu)連接結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機(jī)械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機(jī)械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)





