[發明專利]一種中文對話語義角色標注方法及系統在審
| 申請號: | 202210258857.8 | 申請日: | 2022-03-16 |
| 公開(公告)號: | CN114625830A | 公開(公告)日: | 2022-06-14 |
| 發明(設計)人: | 李聰端;吳寅延;金晨皓 | 申請(專利權)人: | 中山大學·深圳;中山大學 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/33;G06F16/36;G06F40/279;G06F40/30;G06K9/62 |
| 代理公司: | 深圳市創富知識產權代理有限公司 44367 | 代理人: | 高冰 |
| 地址: | 518107 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 中文 對話 語義 角色 標注 方法 系統 | ||
本發明公開了一種中文對話語義角色標注方法及系統,該方法包括:將數據集中的對話文本數據進行關聯實體增強處理,得到增強數據集;將增強數據集輸入輕量化關聯實體增強模型,輸出富有外部知識的詞向量;根據對話語義角色標注的數據樣本構建索引編碼器并輸出索引向量;將富有外部知識的詞向量與索引向量進行拼接,得到拼接向量;將拼接向量輸入至預構建的語義角色標注層,得到語義角色標注結果。本發明基于輕量化技術對中文對話語義標注的模型進行輕量化處理,能夠減少整體模型的參數,降低模型的計算代價,本發明作為一種中文對話語義角色標注方法及系統,可廣泛應用于自然語言處理技術領域。
技術領域
本發明涉及自然語言處理技術領域,尤其涉及一種中文對話語義角色標注方法及系統。
背景技術
自然語言分析技術大致分為三個層面:詞法分析、句法分析和語義分析。語義角色標注(Semantic Role Labeling,下文簡稱SRL)是實現淺層語義分析的一種方式,SRL以句子的謂詞為中心,不對句子所包含的語義信息進行深入分析,只分析句子中各成分與謂詞之間的關系,即句子的謂詞-論元結構,并用語義角色來描述這些結構關系,是許多自然語言理解任務(如信息抽取,篇章分析,深度問答等)的一個重要中間步驟,隨著深度學習技術的日趨發展,許多學者也開始對深度SRL進行研究,但基于傳統的算法或者模型來實現SRL任務都存在巨大的訓練代價或者模型顯存占用過高等問題。
發明內容
為了解決上述技術問題,本發明的目的是提供一種中文對話語義角色標注方法及系統,能夠在降低模型的計算代價的同時提高模型的性能。
本發明所采用的第一技術方案是:一種中文對話語義角色標注方法,包括以下步驟:
將數據集中的對話文本數據進行關聯實體增強處理,得到增強數據集;
將增強數據集輸入輕量化關聯實體增強模型,輸出富有外部知識的詞向量;
根據對話語義角色標注的數據樣本構建索引編碼器并輸出索引向量;
將富有外部知識的詞向量與索引向量進行拼接,得到拼接向量;
將拼接向量輸入至預構建的語義角色標注層,得到語義角色標注結果。
進一步,所述將數據集中的對話文本數據進行關聯實體增強處理,得到增強數據集這一步驟,其具體包括:
從互聯網獲取中文對話數據集并對中文對話數據集進行數據清洗,得到清洗后的數據集;
對清洗后的數據集中的對話文本數據向知識圖譜庫請求知識三元組,并進行關聯實體增強處理,得到增強數據集。
進一步,所述對清洗后的數據集中的對話文本數據向知識圖譜庫請求知識三元組,并進行關聯實體增強處理,得到增強數據集這一步驟,其具體包括:
對清洗后的數據集中的對話文本數據向知識圖譜庫發起請求,得到對應的知識三元組;
將對應的知識三元組進行提取處理,得到關聯實體;
將清洗后的數據集中的對話文本數據與關聯實體以鍵值對格式按行存成本地文件,構建關聯實體字典;
根據關聯實體字典構建關聯實體查找表;
基于關聯實體查找表對數據集中的對話文本數據進行增強處理,得到增強數據集。
進一步,所述將增強數據集輸入輕量化關聯實體增強模型,輸出富有外部知識的詞向量這一步驟,其具體包括:
將BERT架構的RoBERTa預訓練模型作為詞向量編碼器,構建關聯實體知識增強模型;
將關聯實體知識增強模型依次進行適應性修改和輕量化處理,構建輕量化關聯實體知識增強模型并將增強數據集輸入輕量化關聯實體增強模型,輸出富有外部知識的詞向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中山大學·深圳;中山大學,未經中山大學·深圳;中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210258857.8/2.html,轉載請聲明來源鉆瓜專利網。





