[發(fā)明專利]用無向圖嵌入知識圖譜的文本信息抽取方法有效
| 申請?zhí)枺?/td> | 202110642699.1 | 申請日: | 2021-06-09 |
| 公開(公告)號: | CN113312498B | 公開(公告)日: | 2022-06-17 |
| 發(fā)明(設(shè)計)人: | 程長舸;黃征;周異;陳凱 | 申請(專利權(quán))人: | 上海交通大學(xué) |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/35;G06F16/335 |
| 代理公司: | 上海交達專利事務(wù)所 31201 | 代理人: | 王毓理;王錫麟 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 嵌入 知識 圖譜 文本 信息 抽取 方法 | ||
一種用無向圖嵌入知識圖譜的文本信息抽取方法,基于待抽取字符串構(gòu)建包含關(guān)聯(lián)句子信息節(jié)點和知識信息節(jié)點的無向圖,分別根據(jù)無向圖及其節(jié)點編號生成位置編碼、根據(jù)無向圖及其鄰接矩陣生成關(guān)聯(lián)控制矩陣,將關(guān)聯(lián)控制矩陣引入注意力機制中,即關(guān)聯(lián)控制矩陣中顯示關(guān)聯(lián)的節(jié)點能夠正常計算注意力、顯示無關(guān)聯(lián)的節(jié)點對當(dāng)前節(jié)點的注意力值無限趨近于0,即表示二者不相關(guān),將節(jié)點序列中各個節(jié)點的詞嵌入向量和根據(jù)位置編碼和圖中關(guān)聯(lián)關(guān)系得到的相對位置編碼輸入基于注意力機制的信息抽取模型,將模型輸出接入CRF層進行分類輸出,得到信息抽取結(jié)果。
技術(shù)領(lǐng)域
本發(fā)明涉及的是一種信息處理領(lǐng)域的技術(shù),具體是一種用無向圖嵌入知識圖譜的文本信 息抽取方法。
背景技術(shù)
信息是信息時代的主題,為了加強信息的獲取效率,服務(wù)票據(jù)識別、產(chǎn)品信息自動錄入 等業(yè)務(wù),信息抽取技術(shù)近年來逐漸受到越來越多的關(guān)注,而深度學(xué)習(xí)的發(fā)展以及知識圖譜的構(gòu) 建與使用為信息抽取領(lǐng)域的發(fā)展提供了極大的助力。目前的深度學(xué)習(xí)信息抽取模型大多都是在 大規(guī)模通用數(shù)據(jù)上訓(xùn)練得到的,在針對需要很強知識背景的領(lǐng)域,如,進行信息抽取時,采用 通用數(shù)據(jù)訓(xùn)練的深度學(xué)習(xí)信息抽取模型往往不能起到很好的效果,針對此問題通常采用的方案 有兩個,一種方案是采用該特定領(lǐng)域的數(shù)據(jù)來進行訓(xùn)練,得到對應(yīng)的預(yù)訓(xùn)練語言模型來專門服 務(wù)該領(lǐng)域的信息抽取工作,該方案的缺點是領(lǐng)域內(nèi)訓(xùn)練樣本不足時不能起到很好的訓(xùn)練效果, 且每次需要擴展領(lǐng)域內(nèi)的文本時需要將其作為訓(xùn)練數(shù)據(jù)重新進行訓(xùn)練,可擴展性不強,資源利 用效率不高;第二種方案是利用知識圖譜,在預(yù)訓(xùn)練語言模型的選擇上可以選擇通用的預(yù)訓(xùn)練 語言模型,節(jié)省了大量的計算資源,每次只需要在處理輸入時將知識圖譜中的知識信息嵌入到 訓(xùn)練樣本中即可起到將特定領(lǐng)域知識信息引入信息抽取模型的效果,具有很強的可擴展性。
發(fā)明內(nèi)容
本發(fā)明針對現(xiàn)有技術(shù)存在的上述不足,提出一種用無向圖嵌入知識圖譜的文本信息抽取 方法,通過引入無向圖得到鄰接矩陣來建模實體之間的關(guān)系,通過鄰接矩陣計算得到關(guān)聯(lián)控制 矩陣,并構(gòu)建注意力控制機制,控制知識信息在信息抽取模型當(dāng)中影響的范圍,在用知識信息 輔助加強信息抽取效果的前提下,使信息抽取模型盡可能少地被知識噪聲所影響。
本發(fā)明是通過以下技術(shù)方案實現(xiàn)的:
本發(fā)明涉及一種用無向圖嵌入知識圖譜的文本信息抽取方法,基于待抽取字符串構(gòu)建包 含關(guān)聯(lián)句子信息節(jié)點和知識信息節(jié)點的無向圖,分別根據(jù)無向圖及其節(jié)點編號生成位置編碼、 根據(jù)無向圖及其鄰接矩陣生成關(guān)聯(lián)控制矩陣,將關(guān)聯(lián)控制矩陣引入注意力機制中,即關(guān)聯(lián)控制 矩陣中顯示關(guān)聯(lián)的節(jié)點能夠正常計算注意力、顯示無關(guān)聯(lián)的節(jié)點對當(dāng)前節(jié)點的注意力值無限趨 近于0,即表示二者不相關(guān),將節(jié)點序列中各個節(jié)點的詞嵌入向量和根據(jù)位置編碼和圖中關(guān)聯(lián) 關(guān)系得到的相對位置編碼輸入基于注意力機制的信息抽取模型,將模型輸出接入CRF層進行分 類輸出,得到信息抽取結(jié)果。
所述的無向圖,以待抽取字符串平鋪為序列作為無向圖的主干,通過不斷插入知識圖譜 中的知識信息完善無向圖中的關(guān)聯(lián)信息,具體步驟包括:待抽取字符串以序列的形式輸入信息 抽取模型,待抽取字符串中的節(jié)點記為句子信息節(jié)點,而不斷插入的知識圖譜中的知識信息對 應(yīng)的節(jié)點記為知識信息節(jié)點,通過區(qū)分句子信息節(jié)點和知識信息節(jié)點使得句子信息節(jié)點始終受 到關(guān)注,而知識信息節(jié)點只被特定范圍內(nèi)字符串節(jié)點所關(guān)注,最終得到一個由兩類節(jié)點構(gòu)成的 嵌入了知識信息的無向圖以及一個表示各節(jié)點之間連接關(guān)系的鄰接矩陣。
所述的關(guān)聯(lián)控制矩陣,根據(jù)無向圖中距離為1的鄰接矩陣M計算得到距離為2的可達 矩陣N,通過知識圖譜三元組的性質(zhì)限定句子信息節(jié)點所能關(guān)聯(lián)到的知識信息節(jié)點到該句子信 息節(jié)點的距離最多只能為2,因此可以通過鄰接矩陣M和可達矩陣N相加得到任意一個句子信 息節(jié)點所能關(guān)聯(lián)到的知識信息節(jié)點,再加上句子信息節(jié)點之間兩兩相關(guān)聯(lián),M+N即可得到句子 的關(guān)聯(lián)控制矩陣。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海交通大學(xué),未經(jīng)上海交通大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110642699.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 用于圖譜界面的數(shù)據(jù)處理方法及系統(tǒng)
- 用于內(nèi)容特征圖譜化的特征圖譜布局的服務(wù)器及介質(zhì)
- 圖譜的構(gòu)建方法及裝置、電子設(shè)備
- 信息圖譜構(gòu)建方法、裝置及設(shè)備
- 知識圖譜的完善方法及裝置、數(shù)據(jù)處理方法及裝置
- 一種知識圖譜的構(gòu)建方法、裝置、知識圖譜系統(tǒng)及設(shè)備
- 一種基于知識圖譜的故障判別推理方法
- 一種事件圖譜的匹配方法、裝置、電子設(shè)備及存儲介質(zhì)
- 一種用于創(chuàng)建知識圖譜的計算機設(shè)備
- 一種支持增量實體關(guān)聯(lián)的關(guān)系圖譜計算方法





