[發(fā)明專利]知識抽取方法、裝置、電子設(shè)備及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202010318382.8 | 申請日: | 2020-04-21 |
| 公開(公告)號: | CN111639498A | 公開(公告)日: | 2020-09-08 |
| 發(fā)明(設(shè)計)人: | 張聰 | 申請(專利權(quán))人: | 平安國際智慧城市科技股份有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/242;G06F40/216;G06F40/30;G06F16/36 |
| 代理公司: | 深圳市賽恩倍吉知識產(chǎn)權(quán)代理有限公司 44334 | 代理人: | 劉麗華;孫芬 |
| 地址: | 518000 廣東省深圳市前海深港合*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 知識 抽取 方法 裝置 電子設(shè)備 存儲 介質(zhì) | ||
本發(fā)明提供一種知識抽取方法、裝置、電子設(shè)備及存儲介質(zhì)。該方法能夠?qū)υ磾?shù)據(jù)進(jìn)行預(yù)處理,得到文本數(shù)據(jù),通過Bi?LSTM+CRF序列標(biāo)注模型識別文本數(shù)據(jù)中的實體,得到初始實體列表,基于Bi?LSTM+CRF序列標(biāo)注模型實現(xiàn)向非結(jié)構(gòu)化數(shù)據(jù)的準(zhǔn)確轉(zhuǎn)換,基于知識圖譜對初始實體列表進(jìn)行擴(kuò)展,得到候選實體列表,實現(xiàn)對相似表示的全面覆蓋,并采用基于Attention?DSSM算法訓(xùn)練的語義匹配模型對候選實體列表進(jìn)行消歧處理,得到目標(biāo)實體,由于Attention機(jī)制加強(qiáng)了每個詞匯與其它詞匯間的關(guān)聯(lián),且提高了關(guān)鍵詞匯的權(quán)重,使經(jīng)過數(shù)據(jù)分析后得到的目標(biāo)實體更加精準(zhǔn),將目標(biāo)實體鏈接到知識圖譜的節(jié)點上,并基于節(jié)點上的信息進(jìn)行自動的知識抽取,提高了知識抽取的效率及準(zhǔn)確率。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)分析技術(shù)領(lǐng)域,尤其涉及一種知識抽取方法、裝置、電子設(shè)備及存儲介質(zhì)。
背景技術(shù)
目前的知識抽取通常依賴于模板、觸發(fā)詞或者是監(jiān)督學(xué)習(xí)的方式,需要人工進(jìn)行規(guī)則的總結(jié)及數(shù)據(jù)的標(biāo)注以形成規(guī)則庫,并在規(guī)則庫的基礎(chǔ)上進(jìn)行匹配。
上述方式不僅難以維護(hù)、可移植性差,且大量的規(guī)則模板都需要依賴各領(lǐng)域內(nèi)的專家進(jìn)行構(gòu)建,數(shù)據(jù)標(biāo)注所需人力大,標(biāo)注數(shù)據(jù)的質(zhì)量也不可控且綜合成本過高,也不便于擴(kuò)展新的關(guān)系和類別。
發(fā)明內(nèi)容
鑒于以上內(nèi)容,有必要提供一種知識抽取方法、裝置、電子設(shè)備及存儲介質(zhì),能夠基于Attention機(jī)制加強(qiáng)每個詞匯與其它詞匯間的關(guān)聯(lián),根據(jù)關(guān)鍵詞匯的權(quán)重,實現(xiàn)知識的自動抽取,提高知識抽取的效率及準(zhǔn)確率。
一種知識抽取方法,所述知識抽取方法包括:
當(dāng)接收到知識抽取指令時,獲取源數(shù)據(jù);
對所述源數(shù)據(jù)進(jìn)行預(yù)處理,得到文本數(shù)據(jù);
通過基于Bi-LSTM+CRF的序列標(biāo)注模型識別所述文本數(shù)據(jù)中的實體,得到初始實體列表;
基于預(yù)先配置的知識圖譜對所述初始實體列表進(jìn)行擴(kuò)展,得到候選實體列表;
采用基于Attention-DSSM算法訓(xùn)練的語義匹配模型對所述候選實體列表進(jìn)行消歧處理,得到目標(biāo)實體;
將所述目標(biāo)實體鏈接到所述知識圖譜的節(jié)點上;
基于所述節(jié)點上的信息進(jìn)行知識抽取。
根據(jù)本發(fā)明優(yōu)選實施例,所述對所述源數(shù)據(jù)進(jìn)行預(yù)處理,得到文本數(shù)據(jù)包括:
當(dāng)所述源數(shù)據(jù)為圖片類型時,將所述源數(shù)據(jù)轉(zhuǎn)換為初始文本,對所述初始文本進(jìn)行過濾及清洗,得到過濾后的文本,基于UTF-8編碼算法對所述過濾后的文本進(jìn)行編碼,得到所述文本數(shù)據(jù);或者
當(dāng)所述源數(shù)據(jù)為文本類型時,對所述源數(shù)據(jù)進(jìn)行過濾及清洗,得到過濾后的文本,基于UTF-8編碼算法對所述過濾后的文本進(jìn)行編碼,得到所述文本數(shù)據(jù)。
根據(jù)本發(fā)明優(yōu)選實施例,所述知識抽取方法還包括:
根據(jù)預(yù)先定義的需求數(shù)據(jù)配置序列標(biāo)注模式;
將所述序列標(biāo)注模式添加到Bi-LSTM+CRF模型中,得到所述序列標(biāo)注模型。
根據(jù)本發(fā)明優(yōu)選實施例,所述通過基于Bi-LSTM+CRF的序列標(biāo)注模型識別所述文本數(shù)據(jù)中的實體,得到初始實體列表包括:
將所述文本數(shù)據(jù)輸入到所述基于Bi-LSTM+CRF的序列標(biāo)注模型中,并獲取Softmax層中每個序列位置上對應(yīng)的各個標(biāo)簽的輸出概率以及轉(zhuǎn)移概率;
對于每個序列位置,計算各個標(biāo)簽的輸出概率以及轉(zhuǎn)移概率的和作為各個標(biāo)簽的分值;
將分值最高的標(biāo)簽確定為每個序列位置的輸出標(biāo)簽;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于平安國際智慧城市科技股份有限公司,未經(jīng)平安國際智慧城市科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010318382.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





