[發明專利]一種基于NLP的知識圖譜構建方法在審
| 申請號: | 201911382718.0 | 申請日: | 2019-12-27 |
| 公開(公告)號: | CN111177411A | 公開(公告)日: | 2020-05-19 |
| 發明(設計)人: | 王奇鋒;林朝福 | 申請(專利權)人: | 贛州市智能產業創新研究院 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/901;G06N3/04;G06N5/02 |
| 代理公司: | 北京專贏專利代理有限公司 11797 | 代理人: | 劉梅 |
| 地址: | 341000 江西省贛州*** | 國省代碼: | 江西;36 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 nlp 知識 圖譜 構建 方法 | ||
1.一種基于NLP的知識圖譜構建方法,其特征在于,具體步驟如下:
步驟一,通過人工及編寫爬蟲腳本采集素材,素材包括結構化數據、半結構化數據和非結構化數據;
步驟二,對半結構化數據和結構化數據采用NLP方法進行迭代訓練,直至結果的loss不再往下降;
步驟三,對非結構化數據進行知識抽取,通過實體與實體的關系,構建知識圖譜,并把實體和關系存入圖數據庫,即得到知識圖譜。
2.根據權利要求1所述的基于NLP的知識圖譜構建方法,其特征在于,所述步驟二中還包括評估結果的效果,如果結果的效果不好,繼續新增訓練樣本,優化模型參數,重復步驟一和步驟二,直至評估結果的效果好。
3.根據權利要求1所述的基于NLP的知識圖譜構建方法,其特征在于,所述步驟一中素材來自網站、百度百科、書籍和影視作品。
4.根據權利要求1所述的基于NLP的知識圖譜構建方法,其特征在于,所述步驟二中采用NPL中的BiLSTM和CRF知識抽取模型進行迭代訓練。
5.根據權利要求1所述的基于NLP的知識圖譜構建方法,其特征在于,所述步驟二中還包括對半結構化數據和結構化數據做人工實體、屬性及關系標注。
6.根據權利要求5所述的基于NLP的知識圖譜構建方法,其特征在于,所述標注的數量為300-600。
7.根據權利要求4所述的基于NLP的知識圖譜構建方法,其特征在于,所述BiLSTM的輸出維度是tagsize,設BiLSTM的輸出矩陣為P,其中Pi,j代表詞wi映射到tagj的非歸一化概率,Ai,j代表tagi轉移到tagi的轉移概率,對于輸入序列X對應的輸出tag序列y,定義分數為YX代表所有的tag序列,
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于贛州市智能產業創新研究院,未經贛州市智能產業創新研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911382718.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于電力業務的語音交互系統及方法
- 下一篇:電子設備及其控制方法





