[發(fā)明專利]一種知識抽取方法及裝置有效
| 申請?zhí)枺?/td> | 201910585762.5 | 申請日: | 2019-07-01 |
| 公開(公告)號: | CN110275966B | 公開(公告)日: | 2021-10-01 |
| 發(fā)明(設計)人: | 李直旭;宋曉兆;陳志剛 | 申請(專利權)人: | 科大訊飛(蘇州)科技有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F40/295;G06F16/35 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 張小娜 |
| 地址: | 江蘇省蘇州市蘇州工*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 知識 抽取 方法 裝置 | ||
本申請公開了一種知識抽取方法及裝置,在獲取第一表格集合后,對該第一表格集合進行類型識別,得到至少一種目標表格類型下的半結構化的各個表格,作為各個第一目標表格,并基于該各個第一目標表格的表格布局特征,從各個第一目標表格中抽取能夠用于補全目標知識圖譜的知識信息,以便利用知識信息自動補全目標知識圖譜,如此實現知識圖譜的自動補全。其中,由于自動補全過程中無需人工參與,因而,降低人工成本開銷,減少人力資源的浪費。另外,由于表格布局特征能夠影響知識信息的抽取效果,因而,當基于各個半結構化的第一目標表格的表格布局特征對各個第一目標表格中知識信息進行抽取時,能夠較快地抽取到知識信息,提高了知識信息的抽取效果。
技術領域
本申請涉及計算機技術領域,尤其涉及一種知識抽取方法及裝置。
背景技術
目前,由于知識的不斷更新,需要在原有知識圖譜的基礎上,利用新知識對原有知識圖譜進行知識補全。
一種補全方法是采用眾包的方法抽取三元組以補全知識圖譜,但這種方式會浪費大量的人力,人工成本開銷較大;另一種補全方法是智能的從非結構化文本中抽取三元組以補全知識圖譜,但處理非結構化文本的難度大、精度低,使得三元組抽取結果不夠理想,知識抽取效果較差。
發(fā)明內容
本申請實施例的主要目的在于提供一種知識抽取方法及裝置,能夠提升知識抽取效果。
本申請實施例提供了一種知識抽取方法,包括:
獲取第一表格集合,所述第一表格集合中的每一表格為帶有知識的表格;
對所述第一表格集合中的表格進行類型識別,得到至少一種目標表格類型下的半結構化的各個表格,作為各個第一目標表格;
基于所述各個第一目標表格的表格布局特征,從所述各個第一目標表格中抽取知識信息,所述知識信息用于補全目標知識圖譜。
本申請實施例還提供了一種知識抽取裝置,包括:
獲取單元,用于獲取第一表格集合,所述第一表格集合中的每一表格為帶有知識的表格;
識別單元,用于對所述第一表格集合中的表格進行類型識別,得到至少一種目標表格類型下的半結構化的各個表格,作為各個第一目標表格;
抽取單元,用于基于所述各個第一目標表格的表格布局特征,從所述各個第一目標表格中抽取知識信息,所述知識信息用于補全目標知識圖譜。
本申請實施例還提供了一種知識抽取設備,包括:處理器、存儲器、系統(tǒng)總線;
所述處理器以及所述存儲器通過所述系統(tǒng)總線相連;
所述存儲器用于存儲一個或多個程序,所述一個或多個程序包括指令,所述指令當被所述處理器執(zhí)行時使所述處理器執(zhí)行上述提供的知識抽取方法的任一實施方式。
本申請實施例還提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質中存儲有指令,當所述指令在終端設備上運行時,使得所述終端設備執(zhí)行權利上述提供的知識抽取方法的任一實施方式。
本申請實施例還提供了一種計算機程序產品,所述計算機程序產品在終端設備上運行時,使得所述終端設備執(zhí)行上述提供的知識抽取方法的任一實施方式。
基于上述技術方案,本申請具有以下有益效果:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于科大訊飛(蘇州)科技有限公司,未經科大訊飛(蘇州)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910585762.5/2.html,轉載請聲明來源鉆瓜專利網。





