[發(fā)明專利]一種基于預(yù)定義關(guān)系的知識聯(lián)合抽取的方法及裝置在審
| 申請?zhí)枺?/td> | 202011002707.8 | 申請日: | 2020-09-22 |
| 公開(公告)號: | CN112101036A | 公開(公告)日: | 2020-12-18 |
| 發(fā)明(設(shè)計)人: | 于文才;鐘琴隆;杜明本;李鑫宇;張亞寧;董林林;杜志誠;馬強 | 申請(專利權(quán))人: | 山東旗幟信息有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/30;G06N3/04 |
| 代理公司: | 濟南千慧專利事務(wù)所(普通合伙企業(yè)) 37232 | 代理人: | 趙長林 |
| 地址: | 250000 山東省濟南市高新*** | 國省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 預(yù)定 關(guān)系 知識 聯(lián)合 抽取 方法 裝置 | ||
1.一種基于預(yù)定義關(guān)系的知識聯(lián)合抽取的方法,其特征在于:包括如下步驟:
提取目標(biāo)信息,所述目標(biāo)信息包括拓展關(guān)系和實體;
以拓展關(guān)系作為出發(fā)點,將得到的實體按照第一規(guī)則與拓展關(guān)系進行組隊得到信息組;
所述第一規(guī)則包括拓展關(guān)系預(yù)設(shè)的若干連接節(jié)點,所述連接節(jié)點有對預(yù)設(shè)連接的實體預(yù)設(shè)條件。
2.根據(jù)權(quán)利要求1所述的一種基于預(yù)定義關(guān)系的知識聯(lián)合抽取的方法,其特征在于:所述拓展關(guān)系的識別模型采用bert-wwm-ext+膨脹門卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練得到。
3.根據(jù)權(quán)利要求2所述的一種基于預(yù)定義關(guān)系的知識聯(lián)合抽取的方法,其特征在于:所述拓展關(guān)系識別模型按照如下方法訓(xùn)練得到:
構(gòu)建訓(xùn)練樣本,針對采集的語料按照語句進行人工標(biāo)注;根據(jù)人工經(jīng)驗,及預(yù)定義的關(guān)系類型,對語句進行拓展關(guān)系標(biāo)注;
使用bert-wwm-ext針對訓(xùn)練樣本,構(gòu)建成向量,輸入到膨脹門卷積神經(jīng)網(wǎng)絡(luò)進行拓展關(guān)系識別模型的訓(xùn)練。
4.根據(jù)權(quán)利要求1所述的一種基于預(yù)定義關(guān)系的知識聯(lián)合抽取的方法,其特征在于:所述實體識別模型采用bert-wwm-ext+BILSTM+CRF實體識別模型訓(xùn)練得到。
5.根據(jù)權(quán)利要求2所述的一種基于預(yù)定義關(guān)系的知識聯(lián)合抽取的方法,其特征在于:所述實體識別模型按照如下方法訓(xùn)練得到:
構(gòu)建訓(xùn)練樣本,針對采集的語料對其中的實體進行人工標(biāo)注;
標(biāo)注采用BIOES標(biāo)注,實體類型分為PER人員,ORG機構(gòu),ADDR地點,BK書籍;
將標(biāo)注好的樣本通過bert-wwm-ext預(yù)訓(xùn)練模型生成向量,輸入到的BILSTM+CRF網(wǎng)絡(luò)進行實體識別模型的訓(xùn)練。
6.根據(jù)權(quán)利要求5所述的一種基于預(yù)定義關(guān)系的知識聯(lián)合抽取的方法,其特征在于:在進行實體識別模型中,采用BIOES標(biāo)注按照如下方式進行,
對于PER人員,B-PER代表人員實體開始字符,I-PER代表人員實體中間字符,E-PER代表人員實體結(jié)束字符,S-PER代表獨立字符代表一個人員實體,O代表其他字符;
對于ORG機構(gòu),B-ORG代表機構(gòu)實體開始字符,I-ORG代表機構(gòu)實體中間字符,E-ORG代表機構(gòu)實體結(jié)束字符,S-ORG代表獨立字符代表一個機構(gòu)實體,O代表其他字符;
對于ADDR地點,B-ADDR代表地點實體開始字符,I-ADDR代表地點實體中間字符,E-ADDR代表地點實體結(jié)束字符,S-ADDR代表獨立字符代表一個地點實體,O代表其他字符;
對于BK書籍,B-BK代表書籍實體開始字符,I-BK代表書籍實體中間字符,E-BK代表書籍實體結(jié)束字符,S-BK代表獨立字符代表一個書籍實體,O代表其他字符。
7.根據(jù)權(quán)利要求1所述的一種基于預(yù)定義關(guān)系的知識聯(lián)合抽取的方法,其特征在于:還包括包括若干目標(biāo)信息的全文信息,所述目標(biāo)信息按照第一設(shè)定從全文信息中依次提取得到,首先獲取目標(biāo)信息中識別出的第一個拓展關(guān)系,并將得到的實體按照第一規(guī)則與拓展關(guān)系進行組隊得到信息組,若無法得到信息組,則繼續(xù)獲取目標(biāo)信息中識別出的拓展關(guān)系,直至形成信息組或者獲取完全部的拓展關(guān)系為止。
8.根據(jù)權(quán)利要求7所述的一種基于預(yù)定義關(guān)系的知識聯(lián)合抽取的方法,其特征在于:還包括深度信息組,當(dāng)信息組中的實體可以作為拓展關(guān)系時,則將該實體作為拓展關(guān)系,并根據(jù)第一規(guī)則進行其他實體的匹配,繼而得到深度信息組。
9.根據(jù)權(quán)利要求7所述的一種基于預(yù)定義關(guān)系的知識聯(lián)合抽取的方法,其特征在于:所述信息組包括拓展關(guān)系和與拓展關(guān)系按照第一規(guī)則匹配的第一實體和第二實體。
10.一種基于預(yù)定義關(guān)系的知識聯(lián)合抽取的裝置,其特征在于:包括如下模塊:
信息提取模塊,用于提取目標(biāo)信息,所述目標(biāo)信息包括拓展關(guān)系和實體;
分析模塊,用于以信息提取模塊獲取的拓展關(guān)系作為出發(fā)點,將得到的實體按照第一規(guī)則與拓展關(guān)系進行組隊得到信息組;所述第一規(guī)則包括拓展關(guān)系預(yù)設(shè)的若干連接節(jié)點,所述連接節(jié)點有對預(yù)設(shè)連接的實體預(yù)設(shè)條件。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于山東旗幟信息有限公司,未經(jīng)山東旗幟信息有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011002707.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





