[發(fā)明專利]一種文本知識自動抽取方法、裝置、設備及存儲介質在審
| 申請?zhí)枺?/td> | 202011603742.5 | 申請日: | 2020-12-29 |
| 公開(公告)號: | CN112613315A | 公開(公告)日: | 2021-04-06 |
| 發(fā)明(設計)人: | 張浩;周期律;周鵬;王超;鄭力;游佳川;徐欣欣;王璇 | 申請(專利權)人: | 重慶農村商業(yè)銀行股份有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06K9/20 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 張春輝 |
| 地址: | 400000 *** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 知識 自動 抽取 方法 裝置 設備 存儲 介質 | ||
本發(fā)明公開了一種文本知識自動抽取方法、裝置、設備及存儲介質,該方法包括:獲取需要實現知識提取的全部文檔均為待提取文檔,并對每個待提取文檔分別進行拆解,得到每個待提取文檔包含的段落均為待抽取段落;通過Open?IE模型對每個待抽取段落進行知識抽取,得到每個待抽取段落中包含的第一信息及第二信息均為知識;其中,第一信息包括實體及實體間關系,第二信息包括實體及屬性間關系、實體、屬性;將從每個待抽取段落中提取到的知識進行輸出。可見,本申請能夠自動對需要實現知識抽取的文檔進行相應處理,并利用Open?IE模型實現相應的知識抽取,最終得到文檔中的知識并輸出,從而無需人工介入,即可自動有效的實現知識抽取。
技術領域
本發(fā)明涉及文本處理技術領域,更具體地說,涉及一種文本知識自動抽取方法、裝置、設備及存儲介質。
背景技術
伴隨著互聯網的發(fā)展,網絡存在著大量的無結構化知識,知識抽取是指從海量的半結構化和非結構化數據中直接抽取實體、關系和屬性等信息,是信息檢索、智能問答、智能對話等人工智能應用的重要基礎,一直受到業(yè)界的廣泛關注。因此,如何提供一種實現知識抽取的技術方案,是目前本領域技術人員亟待解決的問題。
發(fā)明內容
本發(fā)明的目的是提供一種文本知識自動抽取方法、裝置、設備及存儲介質,無需人工介入,即可自動有效的實現知識抽取。
為了實現上述目的,本發(fā)明提供如下技術方案:
一種文本知識自動抽取方法,包括:
獲取需要實現知識提取的全部文檔均為待提取文檔,并對每個所述待提取文檔分別進行拆解,得到每個所述待提取文檔包含的段落均為待抽取段落;
通過Open-IE模型對每個所述待抽取段落進行知識抽取,得到每個所述待抽取段落中包含的第一信息及第二信息均為知識;其中,所述第一信息包括實體及實體間關系,所述第二信息包括實體及屬性間關系、實體、屬性;
將從每個所述待抽取段落中提取到的所述知識進行輸出。
優(yōu)選的,通過Open-IE模型對每個所述待抽取段落進行知識抽取,包括:
將每個所述待抽取段落按照預設長度及標點符號分別進行拆分,得到每個所述待抽取段落包含的句子均為待抽取句子,并將每個所述待抽取句子均輸入至所述Open-IE模型中,得到所述Open-IE模型輸出的信息為抽取的知識。
優(yōu)選的,得到每個所述待抽取段落中包含的第一信息及第二信息均為知識之后,還包括:
確定包含停用詞、和/或包含大于實體長度閾值的實體長度、和/或包含大于屬性長度閾值的屬性的、和/或包含大于關系長度閾值的表示關系的信息的知識為待過濾知識,并將所述待過濾知識刪除。
優(yōu)選的,將所述待過濾知識刪除之后,還包括:
確定所述知識中具有相同含義的不同詞語,并將具有相同含義的不同詞語均替換為表示該相同含義的統(tǒng)一詞語。
優(yōu)選的,將具有相同含義的不同詞語均替換為表示該相同含義的統(tǒng)一詞語之后,還包括:
基于所述知識將主語表示實體相同的待抽取句子組成相應的段落。
優(yōu)選的,對每個所述待提取文檔分別進行拆解,得到每個所述待提取文檔包含的段落均為待抽取段落,包括:
采用OCR軟件對每個所述待提取文檔進行解析,得到相應的文本信息,并基于所述文本信息的特點獲取其中包含的段落均為待抽取段落。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于重慶農村商業(yè)銀行股份有限公司,未經重慶農村商業(yè)銀行股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011603742.5/2.html,轉載請聲明來源鉆瓜專利網。





