[發(fā)明專利]一種文本知識自動抽取方法、裝置、設備及存儲介質在審

申請?zhí)枺?/td>	202011603742.5	申請日：	2020-12-29
公開（公告）號：	CN112613315A	公開（公告）日：	2021-04-06
發(fā)明（設計）人：	張浩;周期律;周鵬;王超;鄭力;游佳川;徐欣欣;王璇	申請（專利權）人：	重慶農村商業(yè)銀行股份有限公司
主分類號：	G06F40/295	分類號：	G06F40/295;G06K9/20
代理公司：	北京集佳知識產權代理有限公司 11227	代理人：	張春輝
地址：	400000 ***	國省代碼：	重慶;50
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種文本知識自動抽取方法裝置設備存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明公開了一種文本知識自動抽取方法、裝置、設備及存儲介質，該方法包括：獲取需要實現知識提取的全部文檔均為待提取文檔，并對每個待提取文檔分別進行拆解，得到每個待提取文檔包含的段落均為待抽取段落；通過Open?IE模型對每個待抽取段落進行知識抽取，得到每個待抽取段落中包含的第一信息及第二信息均為知識；其中，第一信息包括實體及實體間關系，第二信息包括實體及屬性間關系、實體、屬性；將從每個待抽取段落中提取到的知識進行輸出。可見，本申請能夠自動對需要實現知識抽取的文檔進行相應處理，并利用Open?IE模型實現相應的知識抽取，最終得到文檔中的知識并輸出，從而無需人工介入，即可自動有效的實現知識抽取。

技術領域

本發(fā)明涉及文本處理技術領域，更具體地說，涉及一種文本知識自動抽取方法、裝置、設備及存儲介質。

背景技術

伴隨著互聯網的發(fā)展，網絡存在著大量的無結構化知識，知識抽取是指從海量的半結構化和非結構化數據中直接抽取實體、關系和屬性等信息，是信息檢索、智能問答、智能對話等人工智能應用的重要基礎，一直受到業(yè)界的廣泛關注。因此，如何提供一種實現知識抽取的技術方案，是目前本領域技術人員亟待解決的問題。

發(fā)明內容

本發(fā)明的目的是提供一種文本知識自動抽取方法、裝置、設備及存儲介質，無需人工介入，即可自動有效的實現知識抽取。

為了實現上述目的，本發(fā)明提供如下技術方案：

一種文本知識自動抽取方法，包括：

獲取需要實現知識提取的全部文檔均為待提取文檔，并對每個所述待提取文檔分別進行拆解，得到每個所述待提取文檔包含的段落均為待抽取段落；

通過Open-IE模型對每個所述待抽取段落進行知識抽取，得到每個所述待抽取段落中包含的第一信息及第二信息均為知識；其中，所述第一信息包括實體及實體間關系，所述第二信息包括實體及屬性間關系、實體、屬性；

將從每個所述待抽取段落中提取到的所述知識進行輸出。

優(yōu)選的，通過Open-IE模型對每個所述待抽取段落進行知識抽取，包括：

將每個所述待抽取段落按照預設長度及標點符號分別進行拆分，得到每個所述待抽取段落包含的句子均為待抽取句子，并將每個所述待抽取句子均輸入至所述Open-IE模型中，得到所述Open-IE模型輸出的信息為抽取的知識。

優(yōu)選的，得到每個所述待抽取段落中包含的第一信息及第二信息均為知識之后，還包括：

確定包含停用詞、和/或包含大于實體長度閾值的實體長度、和/或包含大于屬性長度閾值的屬性的、和/或包含大于關系長度閾值的表示關系的信息的知識為待過濾知識，并將所述待過濾知識刪除。

優(yōu)選的，將所述待過濾知識刪除之后，還包括：