[發明專利]一種基于實體識別和屬性抽取模型的學校領域知識圖譜構建方法在審
| 申請號: | 201910511427.0 | 申請日: | 2019-06-13 |
| 公開(公告)號: | CN110287334A | 公開(公告)日: | 2019-09-27 |
| 發明(設計)人: | 朱全銀;王佳薇;周泓;馮萬利;李翔;王文豪;丁瑾;金鷹;高尚兵;宗慧 | 申請(專利權)人: | 淮陰工學院 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/332;G06Q50/20 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 梁耀文 |
| 地址: | 223005 江蘇省淮安市洪澤區東七街三號高*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據集 領域知識 實體識別 屬性抽取 預處理 圖譜構建 標注 圖譜 領域實體 領域屬性 數據集中 有效構建 三元組 構建 抽取 取出 | ||
1.一種基于實體識別和屬性抽取模型的學校領域知識圖譜構建方法,其特征在于,包括如下步驟:
(1)對學校領域問答對數據集進行預處理,得到實體識別模型標注數據集EntityData;
(2)利用數據集EntityData訓練基于BERT-BiLSTM-CRF的實體識別模型,得到學校領域實體識別模型SchoolEntityModel;
(3)對學校領域問答對數據集進行預處理,得到屬性抽取模型標注數據集AttributeData;
(4)利用數據集AttributeData訓練基于BERT的屬性抽取模型,得到學校領域屬性抽取模型SchoolAttributeModel;
(5)在問句對文本數據上抽取出實體、屬性和屬性值,建立知識三元組,構建學校領域知識圖譜。
2.根據權利要求1所述的一種基于實體識別和屬性抽取模型的學校領域知識圖譜構建方法,其特征在于,所述步驟(1)中得到實體識別模型標注數據集的具體步驟如下:
(1.1)定義預處理后的問答對集合QASet,定義question,answer,triple分別為單個問答對的問句、答案和三元組,并且滿足關系QASet={[question1,answer1,triple1],[question2,answer2,triple2],…,[questionQASetNum,answerQASetNum,tripleQASetNum]},其中,QASetNum為問答對集合中數據的個數;對問答對數據進行預處理,得到問答對集合QASet;
(1.2)定義Word、Label分別為問句和答案中每個字構成的數據集、每個字對應的標簽構成的數據集,Word={word1,word2,…,wordQANum},Label={label1,label2,…,labelQANum},wordn為Word中第n個字,labeln為Label中第n個字對應的標簽,其中,QANum為問句和答案的總個數,變量n∈[1,QANum];定義LabelTemp為單個問句和答案中每個字對應的標簽構成的數據,其中,定義計數器count1,令count1=1,用于遍歷QASet;
(1.3)若count1≤QASetNum,執行步驟(1.4),否則執行步驟(1.6);
(1.4)遍歷步驟(1.1)中集合QASet的數據,將數據處理為單個字存入數據集Word中,并將數據集Label中的所有數據標注為非實體標簽,若question或者answer存在于triple中,則將LabelTemp標注為實體標簽,替換Label中對應位置的數據;
(1.5)令count1=count1+1,執行步驟(1.3);
(1.6)將Word和Label中的數據打包為一個個元組,得到實體識別模型標注數據集EntityData={[word1,label2],[word2,label2],…,[wordQANum,labelQANum]},wordn與labeln間用制表符分隔。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于淮陰工學院,未經淮陰工學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910511427.0/1.html,轉載請聲明來源鉆瓜專利網。





