[發明專利]一種中文對話語義角色標注方法及系統在審
| 申請號: | 202210258857.8 | 申請日: | 2022-03-16 |
| 公開(公告)號: | CN114625830A | 公開(公告)日: | 2022-06-14 |
| 發明(設計)人: | 李聰端;吳寅延;金晨皓 | 申請(專利權)人: | 中山大學·深圳;中山大學 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/33;G06F16/36;G06F40/279;G06F40/30;G06K9/62 |
| 代理公司: | 深圳市創富知識產權代理有限公司 44367 | 代理人: | 高冰 |
| 地址: | 518107 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 中文 對話 語義 角色 標注 方法 系統 | ||
1.一種中文對話語義角色標注方法,其特征在于,包括以下步驟:
將數據集中的對話文本數據進行關聯實體增強處理,得到增強數據集;
將增強數據集輸入輕量化關聯實體增強模型,輸出富有外部知識的詞向量;
根據對話語義角色標注的數據樣本構建索引編碼器并輸出索引向量;
將富有外部知識的詞向量與索引向量進行拼接,得到拼接向量;
將拼接向量輸入至預構建的語義角色標注層,得到語義角色標注結果。
2.根據權利要求1所述一種中文對話語義角色標注方法,其特征在于,所述將數據集中的對話文本數據進行關聯實體增強處理,得到增強數據集這一步驟,其具體包括:
從互聯網獲取中文對話數據集并對中文對話數據集進行數據清洗,得到清洗后的數據集;
對清洗后的數據集中的對話文本數據向知識圖譜庫請求知識三元組,并進行關聯實體增強處理,得到增強數據集。
3.根據權利要求2所述一種中文對話語義角色標注方法,其特征在于,所述對清洗后的數據集中的對話文本數據向知識圖譜庫請求知識三元組,并進行關聯實體增強處理,得到增強數據集這一步驟,其具體包括:
對清洗后的數據集中的對話文本數據向知識圖譜庫發起請求,得到對應的知識三元組;
將對應的知識三元組進行提取處理,得到關聯實體;
將清洗后的數據集中的對話文本數據與關聯實體以鍵值對格式按行存成本地文件,構建關聯實體字典;
根據關聯實體字典構建關聯實體查找表;
基于關聯實體查找表對數據集中的對話文本數據進行增強處理,得到增強數據集。
4.根據權利要求3所述一種中文對話語義角色標注方法,其特征在于,所述將增強數據集輸入輕量化關聯實體增強模型,輸出富有外部知識的詞向量這一步驟,其具體包括:
將BERT架構的RoBERTa預訓練模型作為詞向量編碼器,構建關聯實體知識增強模型;
將關聯實體知識增強模型依次進行適應性修改和輕量化處理,構建輕量化關聯實體知識增強模型并將增強數據集輸入輕量化關聯實體增強模型,輸出富有外部知識的詞向量。
5.根據權利要求4所述一種中文對話語義角色標注方法,其特征在于,所述將關聯實體知識增強模型依次進行適應性修改和輕量化處理,構建輕量化關聯實體知識增強模型并將增強數據集輸入輕量化關聯實體增強模型,輸出富有外部知識的詞向量這一步驟,其具體包括:
基于軟位置編碼對關聯實體知識增強模型的輸入層進行適應性修改,得到修改后的輸入層;
獲取清洗后的數據集中的對話文本數據與關聯實體的關系并結合硬位置編碼,構建可見矩陣;
基于可見矩陣對BERT編碼器層進行適應性修改,得到修改后的BERT編碼器層;
對修改后的BERT編碼器層進行輕量化處理,得到輕量化后的K-BERT編碼器層;
結合修改后的輸入層和輕量化后的K-BERT編碼器層,構建輕量化關聯實體知識增強模型;
將增強數據集進行兩種詞序編碼處理并輸入輕量化關聯實體知識增強模型,輸出富有外部知識的詞向量,所述兩種詞序編碼包括硬位置編碼和軟位置編碼。
6.根據權利要求5所述一種中文對話語義角色標注方法,其特征在于,所述將增強數據集進行兩種詞序編碼處理并輸入輕量化關聯實體知識增強模型,輸出富有外部知識的詞向量這一步驟,其具體包括:
基于增強數據集對輕量化關聯實體增強模型進行多代的訓練,對增強數據集中的請求實體相關的知識進行增強處理,得到增強數據集合;
通過對每一個查找句子數據中的所有請求實體請求到的增強數據集合中,對于每個請求實體,均隨機取出對應的一個關聯實體插入到該請求實體后面,得到增強句子;
將增強句子進行兩種詞序編碼,得到各個詞對應的位置索引;
將增強句子、軟位置編碼索引和可見矩陣輸入輕量化關聯實體知識增強模型,輸出富有外部知識的詞向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中山大學·深圳;中山大學,未經中山大學·深圳;中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210258857.8/1.html,轉載請聲明來源鉆瓜專利網。





