[發明專利]一種基于知識圖譜的紅樓夢人物關系框架相似度評判方法在審
| 申請號: | 202011008324.1 | 申請日: | 2020-09-23 |
| 公開(公告)號: | CN112101009A | 公開(公告)日: | 2020-12-18 |
| 發明(設計)人: | 鄭麗敏;呂慶 | 申請(專利權)人: | 中國農業大學 |
| 主分類號: | G06F40/242 | 分類號: | G06F40/242;G06F40/216;G06F40/295;G06F16/36;G06F16/28;G06K9/62;G06N3/04 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100083 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 知識 圖譜 紅樓夢 人物 關系 框架 相似 評判 方法 | ||
1.一種基于知識圖譜的紅樓夢人物關系框架相似度評判方法,其特征在于:搜集數據的補全以及自定義百家姓、人物詞典的構造以及對數據集的標注方法:
(1)搜集紅樓夢人物、關系以及與人物相關的地點,整理整合多來源的數據,查缺補漏,得到一個相對全面的數據;
(2)搜集百家姓,搜集小說中出現頻率較高的人物名字中的第一個字,如果百家姓中沒有則添加進去,比如說獨孤求敗,獨孤在百家姓中沒有,但是在小說中出現的頻率十分高,只取‘獨’這一個字加入百家姓中;
(3)將整理好的紅樓夢人物、地點、新百家姓構建人物字典,具體為:人物、地點以人物+PER標簽,地點+LOC標簽的方法構建人物詞典;新百家姓中的姓加B-PER標簽;加入人物字典;編寫python編碼匹配人物字典,將紅樓夢整本txt文件轉換為標準的BIO形式的txt文件;將BIO形式的txt文件以7:3的比例分為訓練集和測試集,用k折切割將訓練集的不同部分作為驗證集;
(4)將unknow關系加入搜集到的紅樓夢關系中,以數字+關系方式構建關系詞典;依據關系詞典,以數字+句子的方法對句子打標簽,其中句子中的人物名稱用掩碼+通配符表示;將打過標簽的數據集文件以8:2的比例分為訓練集和測試集,用k折切割將訓練集的不同部分作為驗證集。
2.一種基于知識圖譜的紅樓夢人物關系框架相似度評判方法,其特征在于:對原生BERT模型的改進,得到WBERT:
(1)實驗證明BERT每一層對文本的理解都有所不同,為此對BERT模型進行了微調;
(2)將BERT的12層TRANSFORMER生成的表示賦予一個權重,權重的初始化為:ai=Denseunit=1(representi)(其中ai表示第i層的初始權重,Dense表示全連接層,representi表示第i層的輸出,unit=1表示最后將向量降維到一維,從而得到a1-a12這12個初始化權重;
(3)通過訓練來確定權重值,將a1-a12這12個初始化權重作比較,得出權重值最大的賦值為a0;
(4)將ai(representi)(其中i不等于0,ai表示第i層的權重,representi表示第i層的輸出)分別通過一個池化層作最大池化,池化層為3×3×768的核;
(5)將a0(represent0)(a0表示a1-a12中最大的權重值,represent0表示這個值對應的輸出)與池化后的向量做拼接;
(6)再通過一層全連接層將(5)得到拼接向量降維至512維:output=Denseunit=512(其中output表示最后的輸出,Dense表示全連接層,unit=512表示最后將向量降維到512維)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國農業大學,未經中國農業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011008324.1/1.html,轉載請聲明來源鉆瓜專利網。





