[發(fā)明專(zhuān)利]一種基于NLP的知識(shí)圖譜構(gòu)建方法在審
| 申請(qǐng)?zhí)枺?/td> | 201911382718.0 | 申請(qǐng)日: | 2019-12-27 |
| 公開(kāi)(公告)號(hào): | CN111177411A | 公開(kāi)(公告)日: | 2020-05-19 |
| 發(fā)明(設(shè)計(jì))人: | 王奇鋒;林朝福 | 申請(qǐng)(專(zhuān)利權(quán))人: | 贛州市智能產(chǎn)業(yè)創(chuàng)新研究院 |
| 主分類(lèi)號(hào): | G06F16/36 | 分類(lèi)號(hào): | G06F16/36;G06F16/901;G06N3/04;G06N5/02 |
| 代理公司: | 北京專(zhuān)贏專(zhuān)利代理有限公司 11797 | 代理人: | 劉梅 |
| 地址: | 341000 江西省贛州*** | 國(guó)省代碼: | 江西;36 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 nlp 知識(shí) 圖譜 構(gòu)建 方法 | ||
本發(fā)明公開(kāi)了一種基于NLP的知識(shí)圖譜構(gòu)建方法,要解決的是現(xiàn)有素材整理中存在的問(wèn)題。本發(fā)明具體步驟如下:步驟一,通過(guò)人工及編寫(xiě)爬蟲(chóng)腳本采集素材,素材包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù);步驟二,對(duì)半結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)采用NLP方法進(jìn)行迭代訓(xùn)練,直至結(jié)果的loss不再往下降;步驟三,對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行知識(shí)抽取,通過(guò)實(shí)體與實(shí)體的關(guān)系,構(gòu)建知識(shí)圖譜,并把實(shí)體和關(guān)系存入圖數(shù)據(jù)庫(kù),即得到知識(shí)圖譜。本發(fā)明利用NLP技術(shù)來(lái)做素材的實(shí)體及關(guān)系抽取,構(gòu)建知識(shí)圖譜,然后基于知識(shí)圖譜做知識(shí)檢索及知識(shí)問(wèn)答,最終建立智能云,保護(hù)革命數(shù)字遺產(chǎn)。
技術(shù)領(lǐng)域
本發(fā)明涉及知識(shí)圖譜建立領(lǐng)域,具體是一種基于NLP的知識(shí)圖譜構(gòu)建方法。
背景技術(shù)
隨著近年來(lái)人們對(duì)于精神的越來(lái)越重視,相關(guān)知識(shí)也廣泛在群眾中流傳。隨著智能化技術(shù)的流傳,人們也開(kāi)始探索知識(shí)的智能化建立。
現(xiàn)有的方式需要從網(wǎng)站、書(shū)籍、影視作品中收集大量文本素材,這些素材是非結(jié)構(gòu)化的,需要做結(jié)構(gòu)化的實(shí)體抽取來(lái)構(gòu)建知識(shí)圖譜,比如在人物的介紹中,需要提取出人物的姓名、出生日期、逝世日期、籍貫、重要生平事跡等;在景點(diǎn)素材中,需要提取景點(diǎn)名稱(chēng)、地點(diǎn)、重要事件、人物等,雖然抽取這些信息非常簡(jiǎn)單,但是面對(duì)成千上萬(wàn)的素材整理,將是非常巨大的工作量,人們也在進(jìn)行相關(guān)方面的探索。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例的目的在于提供一種基于NLP的知識(shí)圖譜構(gòu)建方法,以解決上述背景技術(shù)中提出的問(wèn)題。
為實(shí)現(xiàn)上述目的,本發(fā)明實(shí)施例提供如下技術(shù)方案:
一種基于NLP的知識(shí)圖譜構(gòu)建方法,具體步驟如下:
步驟一,通過(guò)人工及編寫(xiě)爬蟲(chóng)腳本采集素材,素材包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù);
步驟二,對(duì)半結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)采用NLP(Natural Language Processing,自然語(yǔ)言處理)方法進(jìn)行迭代訓(xùn)練,直至結(jié)果的loss不再往下降;
步驟三,對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行知識(shí)抽取,通過(guò)實(shí)體與實(shí)體的關(guān)系,構(gòu)建知識(shí)圖譜,并把實(shí)體和關(guān)系存入圖數(shù)據(jù)庫(kù),即得到知識(shí)圖譜。
作為本發(fā)明實(shí)施例進(jìn)一步的方案:步驟二中還包括評(píng)估結(jié)果的效果,如果結(jié)果的效果不好,繼續(xù)新增訓(xùn)練樣本,優(yōu)化模型參數(shù),重復(fù)步驟一和步驟二,直至評(píng)估結(jié)果的效果好。
作為本發(fā)明實(shí)施例進(jìn)一步的方案:步驟一中素材來(lái)自網(wǎng)站、百度百科、書(shū)籍和影視作品。
作為本發(fā)明實(shí)施例進(jìn)一步的方案:步驟二中采用NPL中的BiLSTM(雙向長(zhǎng)短期循環(huán)神經(jīng)網(wǎng)絡(luò))和CRF (條件隨機(jī)場(chǎng))知識(shí)抽取模型進(jìn)行迭代訓(xùn)練,技術(shù)成熟,使用效果好。
作為本發(fā)明實(shí)施例進(jìn)一步的方案:步驟二中還包括對(duì)半結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)做人工實(shí)體、屬性及關(guān)系標(biāo)注,便于后續(xù)的迭代訓(xùn)練。
作為本發(fā)明實(shí)施例進(jìn)一步的方案:標(biāo)注的數(shù)量為300-600,工作量不大,迭代訓(xùn)練的效果好。
作為本發(fā)明實(shí)施例進(jìn)一步的方案:BiLSTM的輸出維度是tag size,這就相當(dāng)于是每個(gè)詞wi映射到tag的發(fā)射概率值,設(shè)BiLSTM的輸出矩陣為P,其中Pi,j代表詞wi映射到tagj的非歸一化概率。對(duì)于CRF來(lái)說(shuō),我們假定存在一個(gè)轉(zhuǎn)移矩陣A,則Ai,j代表tagi轉(zhuǎn)移到tagj的轉(zhuǎn)移概率,對(duì)于輸入序列X對(duì)應(yīng)的輸出tag序列y,定義分?jǐn)?shù)為
利用Softmax函數(shù),我們?yōu)槊恳粋€(gè)正確的tag序列y定義一個(gè)概率值(YX代表所有的tag序列,包括不可能出現(xiàn)的)
因而在訓(xùn)練中,我們只需要最大化似然概率P(y|X)即可,這里我們利用對(duì)數(shù)似然
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于贛州市智能產(chǎn)業(yè)創(chuàng)新研究院,未經(jīng)贛州市智能產(chǎn)業(yè)創(chuàng)新研究院許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911382718.0/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 基于NLP技術(shù)的終端交互方法及系統(tǒng)、云平臺(tái)
- 語(yǔ)義識(shí)別方法及設(shè)備
- 一種基于重疊度計(jì)算的NLP庫(kù)組合使用方法
- 語(yǔ)音交互方法及其系統(tǒng)、語(yǔ)音交互設(shè)備
- 自然語(yǔ)言處理模型的提早退出
- 基于語(yǔ)義結(jié)構(gòu)的口令分詞系統(tǒng)及方法
- 一種基于NLP的訓(xùn)練模式與識(shí)別模式動(dòng)態(tài)切換的方法
- 外呼系統(tǒng)部署方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- NLP模型訓(xùn)練發(fā)布識(shí)別系統(tǒng)
- 一種基于大數(shù)據(jù)調(diào)整NLP模型容量的方法
- 基于本體的知識(shí)地圖繪制系統(tǒng)
- 基于知識(shí)地圖的領(lǐng)域知識(shí)瀏覽方法
- 一種基于知識(shí)本體的知識(shí)體系的建模方法
- 一種知識(shí)工程系統(tǒng)
- 知識(shí)自動(dòng)化系統(tǒng)和方法以及存儲(chǔ)器
- 基于SOLR的知識(shí)管理系統(tǒng)
- 基于知識(shí)節(jié)點(diǎn)所屬度的知識(shí)圖譜構(gòu)建方法和裝置
- 一種基于知識(shí)圖譜的稅務(wù)知識(shí)庫(kù)系統(tǒng)
- 一種智聯(lián)網(wǎng)中的網(wǎng)絡(luò)知識(shí)統(tǒng)一表征架構(gòu)及實(shí)現(xiàn)方法
- 知識(shí)點(diǎn)存儲(chǔ)方法、裝置、服務(wù)器及介質(zhì)
- 用于圖譜界面的數(shù)據(jù)處理方法及系統(tǒng)
- 用于內(nèi)容特征圖譜化的特征圖譜布局的服務(wù)器及介質(zhì)
- 圖譜的構(gòu)建方法及裝置、電子設(shè)備
- 信息圖譜構(gòu)建方法、裝置及設(shè)備
- 知識(shí)圖譜的完善方法及裝置、數(shù)據(jù)處理方法及裝置
- 一種知識(shí)圖譜的構(gòu)建方法、裝置、知識(shí)圖譜系統(tǒng)及設(shè)備
- 一種基于知識(shí)圖譜的故障判別推理方法
- 一種事件圖譜的匹配方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種用于創(chuàng)建知識(shí)圖譜的計(jì)算機(jī)設(shè)備
- 一種支持增量實(shí)體關(guān)聯(lián)的關(guān)系圖譜計(jì)算方法





