[發(fā)明專利]基于自調(diào)參數(shù)的領(lǐng)域知識(shí)抽取方法與系統(tǒng)、電子設(shè)備有效
| 申請(qǐng)?zhí)枺?/td> | 202110006928.0 | 申請(qǐng)日: | 2021-01-05 |
| 公開(kāi)(公告)號(hào): | CN112328812B | 公開(kāi)(公告)日: | 2021-03-26 |
| 發(fā)明(設(shè)計(jì))人: | 姚苗;查琳;冶莎;張晨;周智海;王芳杰;覃晨;黃慶嬌;王振宇;陳剛;何青松;向波;楊志勤;邢尚合;周凡吟 | 申請(qǐng)(專利權(quán))人: | 成都數(shù)聯(lián)銘品科技有限公司 |
| 主分類號(hào): | G06F16/36 | 分類號(hào): | G06F16/36 |
| 代理公司: | 北京市領(lǐng)專知識(shí)產(chǎn)權(quán)代理有限公司 11590 | 代理人: | 張玲;王瑩瑩 |
| 地址: | 610015 四川省成都市自由貿(mào)易試*** | 國(guó)省代碼: | 四川;51 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 自調(diào) 參數(shù) 領(lǐng)域 知識(shí) 抽取 方法 系統(tǒng) 電子設(shè)備 | ||
本發(fā)明涉及一種基于自調(diào)參數(shù)的領(lǐng)域知識(shí)抽取方法與系統(tǒng)、電子設(shè)備,包括以下步驟:通過(guò)采集的領(lǐng)域數(shù)據(jù)構(gòu)建領(lǐng)域本體知識(shí)庫(kù),所述領(lǐng)域本體知識(shí)庫(kù)包括領(lǐng)域?qū)嶓w庫(kù)、領(lǐng)域關(guān)系庫(kù)、領(lǐng)域?qū)傩詭?kù);將構(gòu)建的領(lǐng)域本體知識(shí)庫(kù)向量化處理后,作為預(yù)訓(xùn)練模型的輸入,對(duì)預(yù)訓(xùn)練模型進(jìn)行訓(xùn)練,得到知識(shí)抽取模型;獲取知識(shí)抽取模型中的可調(diào)參數(shù),根據(jù)業(yè)務(wù)數(shù)據(jù)調(diào)整可調(diào)參數(shù),對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行預(yù)處理后,將預(yù)處理后的業(yè)務(wù)數(shù)據(jù)和調(diào)整后的可調(diào)參數(shù)輸入所述知識(shí)抽取模型,從而得到業(yè)務(wù)數(shù)據(jù)的抽取結(jié)果;所述抽取結(jié)果為實(shí)體,關(guān)系,屬性的三元組列表。本方案能夠完備知識(shí)庫(kù),統(tǒng)一抽取實(shí)體、關(guān)系、屬性,快速響應(yīng)不同的業(yè)務(wù)需求。
技術(shù)領(lǐng)域
本發(fā)明涉及知識(shí)圖譜技術(shù)領(lǐng)域,特別涉及一種基于自調(diào)參數(shù)的領(lǐng)域知識(shí)抽取方法與系統(tǒng)、電子設(shè)備。
背景技術(shù)
知識(shí)圖譜(Knowledge Graph),在圖書(shū)情報(bào)界稱為知識(shí)域可視化或知識(shí)領(lǐng)域映射地圖,是顯示知識(shí)發(fā)展進(jìn)程與結(jié)構(gòu)關(guān)系的一系列各種不同的圖形,用可視化技術(shù)描述知識(shí)資源及其載體,挖掘、分析、構(gòu)建、繪制和顯示知識(shí)及它們之間的相互聯(lián)系。知識(shí)抽取是知識(shí)圖譜構(gòu)建的前置步驟,知識(shí)抽取結(jié)果的數(shù)量、質(zhì)量直接影響到生成知識(shí)圖譜的質(zhì)量,特別對(duì)于非結(jié)構(gòu)化數(shù)據(jù)成圖,知識(shí)抽取則是必不可少的重要環(huán)節(jié)。
知識(shí)抽取的內(nèi)容包括實(shí)體抽取、關(guān)系抽取、屬性抽取。在工業(yè)領(lǐng)域,知識(shí)抽取的應(yīng)用主要集中在實(shí)體抽取,比如在文本數(shù)據(jù)領(lǐng)域,主要應(yīng)用在命名體識(shí)別技術(shù),對(duì)人名、組織名稱、機(jī)構(gòu)名稱等進(jìn)行識(shí)別;在圖像數(shù)據(jù)領(lǐng)域,主要應(yīng)用在利用OCR技術(shù)上,并結(jié)合模板生成知識(shí)圖譜。而關(guān)系抽取、屬性抽取則主要基于領(lǐng)域生成相應(yīng)的規(guī)則來(lái)進(jìn)行知識(shí)抽取。
但目前的知識(shí)抽取還存在以下問(wèn)題:
一、公開(kāi)知識(shí)庫(kù)難以完備
知識(shí)抽取的準(zhǔn)確性與知識(shí)庫(kù)的完整性、標(biāo)準(zhǔn)性具有較強(qiáng)的依賴關(guān)系,而開(kāi)源的公共知識(shí)庫(kù)只對(duì)通用概念進(jìn)行了收集,對(duì)于具體業(yè)務(wù)領(lǐng)域的知識(shí)是不完備的,這就造成了開(kāi)源的知識(shí)庫(kù)沒(méi)有辦法直接用于實(shí)際業(yè)務(wù)場(chǎng)景。
二、知識(shí)抽取割裂
實(shí)體抽取、關(guān)系抽取、屬性抽取被劃分為不同的子任務(wù),且需要順序執(zhí)行,目前沒(méi)有一個(gè)完整的知識(shí)抽取模型能夠同時(shí)滿足實(shí)體抽取、關(guān)系抽取、屬性抽取,但是在知識(shí)圖譜中實(shí)體、關(guān)系、屬性是有依賴關(guān)聯(lián)的,將其任務(wù)劃分必然會(huì)導(dǎo)致局部信息丟失。
三、難以快速響應(yīng)變化
目前的知識(shí)抽取模型很難進(jìn)行復(fù)用,每次進(jìn)行知識(shí)抽取時(shí)都需要根據(jù)具體的業(yè)務(wù)數(shù)據(jù)進(jìn)行重新訓(xùn)練、驗(yàn)證、測(cè)試,知識(shí)抽取模型建設(shè)周期很長(zhǎng),難以應(yīng)對(duì)業(yè)務(wù)需求的快速變化。
發(fā)明內(nèi)容
本發(fā)明的目的在于解決上述三個(gè)問(wèn)題,即第一完備領(lǐng)域本體知識(shí)庫(kù),第二能夠統(tǒng)一抽取實(shí)體、關(guān)系、屬性,第三快速響應(yīng)不同的業(yè)務(wù)需求,提供一種基于自調(diào)參數(shù)的領(lǐng)域知識(shí)抽取方法與系統(tǒng)、電子設(shè)備。
為了實(shí)現(xiàn)上述三個(gè)問(wèn)題的發(fā)明目的,本發(fā)明實(shí)施例提供了以下技術(shù)方案:
基于自調(diào)參數(shù)的領(lǐng)域知識(shí)抽取方法,其特征在于:包括以下步驟:
依據(jù)開(kāi)源知識(shí)庫(kù),對(duì)采集的領(lǐng)域數(shù)據(jù)進(jìn)行預(yù)處理,通過(guò)預(yù)處理后的領(lǐng)域數(shù)據(jù)構(gòu)建領(lǐng)域本體知識(shí)庫(kù),所述領(lǐng)域本體知識(shí)庫(kù)包括領(lǐng)域本體,所述領(lǐng)域本體包括領(lǐng)域?qū)嶓w庫(kù)、領(lǐng)域關(guān)系庫(kù)、領(lǐng)域?qū)傩詭?kù);
將構(gòu)建的領(lǐng)域本體知識(shí)庫(kù)向量化處理后,作為預(yù)訓(xùn)練模型的輸入,對(duì)預(yù)訓(xùn)練模型進(jìn)行訓(xùn)練,得到知識(shí)抽取模型;
獲取知識(shí)抽取模型中的可調(diào)參數(shù),根據(jù)業(yè)務(wù)數(shù)據(jù)調(diào)整可調(diào)參數(shù),對(duì)業(yè)務(wù)數(shù)據(jù)進(jìn)行預(yù)處理后,將預(yù)處理后的業(yè)務(wù)數(shù)據(jù)和調(diào)整后的可調(diào)參數(shù)輸入所述知識(shí)抽取模型,從而得到業(yè)務(wù)數(shù)據(jù)的抽取結(jié)果;所述抽取結(jié)果為實(shí)體,關(guān)系,屬性的三元組列表。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于成都數(shù)聯(lián)銘品科技有限公司,未經(jīng)成都數(shù)聯(lián)銘品科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110006928.0/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。





