[發(fā)明專利]輔助理解的對話系統(tǒng)人工評估方法、裝置及存儲介質有效
| 申請?zhí)枺?/td> | 202210436767.3 | 申請日: | 2022-04-25 |
| 公開(公告)號: | CN114528821B | 公開(公告)日: | 2022-09-06 |
| 發(fā)明(設計)人: | 李華慶;何向南;向元新 | 申請(專利權)人: | 中國科學技術大學 |
| 主分類號: | G06F40/205 | 分類號: | G06F40/205;G06F40/186 |
| 代理公司: | 北京凱特來知識產權代理有限公司 11260 | 代理人: | 鄭立明;韓珂 |
| 地址: | 230026 安*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 輔助 理解 對話 系統(tǒng) 人工 評估 方法 裝置 存儲 介質 | ||
本發(fā)明公開了一種輔助理解的對話系統(tǒng)人工評估方法、裝置及存儲介質,對常用的標準進行分組和整理,選擇出待評估的對話標準,構建基礎評估模板,還參考中英文考試中常用的閱讀理解測試和閱讀策略設計,在基礎評估模板中呈現對話歷史的部分嵌入了單選補全對話、內容拖拽排序的閱讀任務,并記錄收集工人評估對話歷史的所用時間,依據一致性算法計算出工人作答的一致性指標,說明理解對話歷史對評估結果的改善。本發(fā)明上述方案從任務理解的角度出發(fā),通過增強工人對任務的理解程度來完善對話評估方案,提高工人評估的可靠性,從而獲取高質量的評估數據。
技術領域
本發(fā)明涉及自然語言處理與人機交互技術領域,尤其涉及一種輔助理解的對話系統(tǒng)人工評估方法、裝置及存儲介質。
背景技術
閑聊型對話研究是自然語言處理領域中不可忽視的一個研究課題,而目前還不夠成熟的對話評估技術大大限制了對話系統(tǒng)的進一步研究與應用。根據評估主體的不同,對話系統(tǒng)評估一般分為兩種方式:人工評估和自動化評估。自動化評估是以使用一些評估指標和評估模型為主,通過統(tǒng)計對話特征乃至深度學習模型去挖掘對話上下文中的語義關系,從而進行自動化的評估;然而對于閑聊形式的對話來說,沒有標準的回復作為參考,自動化評估方式很難在此場景下取得較好的效果。為了實現更準確的對話系統(tǒng)評估,需要確保人工評估的可靠性與一致性,從而獲取高質量的人工標注數據(即評估數據)。
目前的對話系統(tǒng)人工評估中一個較為關鍵的問題是缺少標準的對話評估方案,使得不同工作的重疊度低,可復現性差。目前的人工評估方案的差異主要集中在評估形式或評估細節(jié)上:例如在對話智能挑戰(zhàn)賽ConvAI中,每個用戶與一個對話機器人配對并經過4-6輪的交談,之后以1-4的分數回答問題:“您喜歡與該用戶交談的程度是多少”。而在Facebook AI的研究團隊提出了多輪對話場景下的對比評估方案Acute-eval,考慮了分數評估方法可能帶來結果的偏差等問題,在給定兩段完整的多輪對話下,詢問用戶更偏好于哪一邊的說話者,用偏好來給出對話系統(tǒng)的評估。此外,對話領域中根據任務場景或者數據集的不同,對話系統(tǒng)評估的質量標準也可能不同。多個研究者的調研顯示現有的評估標準之間存在較低的重疊度,這給工人的評估工作帶來了不確定性。有研究者將NLG(自然語言生成技術)領域的論文中不同的評估標準與對應的出現次數總結為表格的形式,表格的稀疏性表明被調查論文中使用的評估標準不統(tǒng)一,使得不同工作之間的比較非常困難。
為了確保閑聊型對話中評估數據(也即對話評估結果)的有效性,現有的方案中一般對工人評估的一致性進行計算來衡量標注結果的好壞。然而在多數的人工評估方案中,參與評估的工人的一致性較低,評估結果不可靠。因此,許多研究致力于提高其評估方案結果的一致性。例如研究者Novikova的工作證明了打分時使用連續(xù)量表能夠提高語言評估一致性。而另一批研究者在眾包標注任務上的研究指出,標注工人會因為缺乏對任務的理解導致其完成任務的準確率和質量不高。Sashank Santhanam基于認知偏差的理論進行了對話評估任務的實驗,說明在一定條件下給定生成句子的參考能夠提高工人之間的一致性;而Facebook AI的研究團隊考慮工人對任務問題的不同理解,測量了每個問題的不同措辭下工人的一致性,并選擇了一致性最高的措辭用于后續(xù)實驗中。然而已有的評估方案例如更換措辭、增加參考僅僅聚焦于一到兩個研究點,并沒有系統(tǒng)的考慮整個對話評估任務中涉及到的理解過程,綜上所述,評估結果的可靠性以及評估數據的質量均有待提升。
發(fā)明內容
本發(fā)明的目的是提供一種輔助理解的對話系統(tǒng)人工評估方法、裝置及存儲介質,可以提高工人評估的一致性,提升評估結果的可靠性以及評估數據的質量。
本發(fā)明的目的是通過以下技術方案實現的:
一種輔助理解的對話系統(tǒng)人工評估方法,包括:
從已有的評估標準中篩選出若干對話評估標準,構建評估標準框架,生成基礎評估模板;
參考閱讀理解考核方式設計閱讀問題,在所述基礎評估模板上,將閱讀問題嵌入至待評估的對話內容中,生成包含閱讀問題的評估模板并提供給參與對話系統(tǒng)人工評估的工人;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學技術大學,未經中國科學技術大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210436767.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種腫瘤干細胞向神經元方向分化方法
- 下一篇:一種金屬板材火焰切割裝置





