[發明專利]基于自調參數的領域知識抽取方法與系統、電子設備有效
| 申請號: | 202110006928.0 | 申請日: | 2021-01-05 |
| 公開(公告)號: | CN112328812B | 公開(公告)日: | 2021-03-26 |
| 發明(設計)人: | 姚苗;查琳;冶莎;張晨;周智海;王芳杰;覃晨;黃慶嬌;王振宇;陳剛;何青松;向波;楊志勤;邢尚合;周凡吟 | 申請(專利權)人: | 成都數聯銘品科技有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36 |
| 代理公司: | 北京市領專知識產權代理有限公司 11590 | 代理人: | 張玲;王瑩瑩 |
| 地址: | 610015 四川省成都市自由貿易試*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 自調 參數 領域 知識 抽取 方法 系統 電子設備 | ||
本發明涉及一種基于自調參數的領域知識抽取方法與系統、電子設備,包括以下步驟:通過采集的領域數據構建領域本體知識庫,所述領域本體知識庫包括領域實體庫、領域關系庫、領域屬性庫;將構建的領域本體知識庫向量化處理后,作為預訓練模型的輸入,對預訓練模型進行訓練,得到知識抽取模型;獲取知識抽取模型中的可調參數,根據業務數據調整可調參數,對業務數據進行預處理后,將預處理后的業務數據和調整后的可調參數輸入所述知識抽取模型,從而得到業務數據的抽取結果;所述抽取結果為實體,關系,屬性的三元組列表。本方案能夠完備知識庫,統一抽取實體、關系、屬性,快速響應不同的業務需求。
技術領域
本發明涉及知識圖譜技術領域,特別涉及一種基于自調參數的領域知識抽取方法與系統、電子設備。
背景技術
知識圖譜(Knowledge Graph),在圖書情報界稱為知識域可視化或知識領域映射地圖,是顯示知識發展進程與結構關系的一系列各種不同的圖形,用可視化技術描述知識資源及其載體,挖掘、分析、構建、繪制和顯示知識及它們之間的相互聯系。知識抽取是知識圖譜構建的前置步驟,知識抽取結果的數量、質量直接影響到生成知識圖譜的質量,特別對于非結構化數據成圖,知識抽取則是必不可少的重要環節。
知識抽取的內容包括實體抽取、關系抽取、屬性抽取。在工業領域,知識抽取的應用主要集中在實體抽取,比如在文本數據領域,主要應用在命名體識別技術,對人名、組織名稱、機構名稱等進行識別;在圖像數據領域,主要應用在利用OCR技術上,并結合模板生成知識圖譜。而關系抽取、屬性抽取則主要基于領域生成相應的規則來進行知識抽取。
但目前的知識抽取還存在以下問題:
一、公開知識庫難以完備
知識抽取的準確性與知識庫的完整性、標準性具有較強的依賴關系,而開源的公共知識庫只對通用概念進行了收集,對于具體業務領域的知識是不完備的,這就造成了開源的知識庫沒有辦法直接用于實際業務場景。
二、知識抽取割裂
實體抽取、關系抽取、屬性抽取被劃分為不同的子任務,且需要順序執行,目前沒有一個完整的知識抽取模型能夠同時滿足實體抽取、關系抽取、屬性抽取,但是在知識圖譜中實體、關系、屬性是有依賴關聯的,將其任務劃分必然會導致局部信息丟失。
三、難以快速響應變化
目前的知識抽取模型很難進行復用,每次進行知識抽取時都需要根據具體的業務數據進行重新訓練、驗證、測試,知識抽取模型建設周期很長,難以應對業務需求的快速變化。
發明內容
本發明的目的在于解決上述三個問題,即第一完備領域本體知識庫,第二能夠統一抽取實體、關系、屬性,第三快速響應不同的業務需求,提供一種基于自調參數的領域知識抽取方法與系統、電子設備。
為了實現上述三個問題的發明目的,本發明實施例提供了以下技術方案:
基于自調參數的領域知識抽取方法,其特征在于:包括以下步驟:
依據開源知識庫,對采集的領域數據進行預處理,通過預處理后的領域數據構建領域本體知識庫,所述領域本體知識庫包括領域本體,所述領域本體包括領域實體庫、領域關系庫、領域屬性庫;
將構建的領域本體知識庫向量化處理后,作為預訓練模型的輸入,對預訓練模型進行訓練,得到知識抽取模型;
獲取知識抽取模型中的可調參數,根據業務數據調整可調參數,對業務數據進行預處理后,將預處理后的業務數據和調整后的可調參數輸入所述知識抽取模型,從而得到業務數據的抽取結果;所述抽取結果為實體,關系,屬性的三元組列表。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都數聯銘品科技有限公司,未經成都數聯銘品科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110006928.0/2.html,轉載請聲明來源鉆瓜專利網。





