[發明專利]基于直播場景的對話數據集構建方法及裝置在審
| 申請號: | 202211534448.2 | 申請日: | 2022-12-02 |
| 公開(公告)號: | CN115544237A | 公開(公告)日: | 2022-12-30 |
| 發明(設計)人: | 高景盛;連怡鑫;王寶元 | 申請(專利權)人: | 北京紅棉小冰科技有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/33;G06F40/211;G06F40/284;G06F40/30 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 謝志超 |
| 地址: | 100080 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 直播 場景 對話 數據 構建 方法 裝置 | ||
本發明實施例提供一種基于直播場景的對話數據集構建方法及裝置,該方法包括:基于主播直播視頻的用戶評論,獲取用戶評論發表后預設時間內文本格式的主播講話內容;獲取主播講話內容中與用戶評論具有重疊詞匯的句子并計算和用戶評論間的語義相似度,根據語義相似度獲取針對用戶評論的主播回復;根據用戶評論和主播回復構建對話數據集。本發明實施例基于真實直播場景下大量的主播直播視頻和用戶評論,通過時間匹配、詞匯匹配及相似度判斷構建對話數據集,得到了特定人物特征下的大規模真實數據集,有利于訓練得到具有豐富人物特征且在泛化性、多樣性、相關性方面表現良好的對話系統,有利于真實場景對話系統的效果提升,提升用戶體驗度。
技術領域
本發明實施例涉及計算機技術領域,具體涉及一種基于直播場景的對話數據集構建方法及裝置。
背景技術
現有對話系統主要可以分為任務式對話系統和開放域對話系統,其中以京東/美團/阿里智能客服為代表的任務式對話系統,能夠支持基于對話上文和對話狀態管理生成一個有任務目標的回復;而EVA2(智源)/PlatoXL(百度)模型為代表的開放域對話系統,能夠根據用戶的輸入生成一個沒有域限制的回復。然而這些對話系統的訓練語料沒有融入說話者的個人特征,因此難以遷移到需要鮮明人物特征的對話場景(如直播)。
現有包含一定人物特征的對話數據集,以2018年谷歌提出的融入人物個人信息的PersonaChat為代表,能夠支持開放域對話根據一定的人物形象假定生成一些帶有個人特征的對話;2018年facebook提出的Reddit數據集和2019年基于微博對話收集的PersonalDialog為代表,對話數據的規模較大,但是該數據集的人物特征非常稀疏且是人為構造的特征。
此外還有基于網絡聊天系統構造的Ubuntu IRC數據集和基于電影電視劇片段構造的對話數據集Friends等,都沒有關注講話者個人的特征。上述的數據集的構造方式都是通過爬取網絡對話或者人工扮演對話者的形式來構建數據集中的對話對,通過明確的指向關系來構建其中的對話回復關系。
可見,現有的對話數據集存在如下缺陷:
基于現有對話數據集訓練的對話系統,大多數不關注對話場景中人物的個人特征,其中少部分包含有人物特征的數據集一般人物特征都比較稀疏,不足以真實的代表個人特征,無法遷移到需要虛擬人物的應用場景(如直播場景)。此外,包含較多人物信息的對話數據集一般是人工構造的對話數據集,和真實的場景有一定的差異性,且人工構造數據集通常數據量規模較小。現有的對話數據集對話對的構造方法都比較簡單,通過人工模擬生成的對話或者獲取的網絡對話中的每條句子都有明確的回復指向關系,一般適用于普通社交對話場景,無法適用于直播等場景。現有對話系統生成的回復都比較通用,給用戶的體驗感不強。
因此,構建一個大規模真實的富人物特征的對話數據集有利于真實場景對話系統的效果提升。
發明內容
針對現有技術存在的缺陷,本發明實施例提供一種基于直播場景的對話數據集構建方法及裝置。
本發明實施例提供一種基于直播場景的對話數據集構建方法,包括:基于主播直播視頻的用戶評論,獲取所述用戶評論發表后預設時間內文本格式的主播講話內容;將所述主播講話內容中的句子和所述用戶評論進行匹配,獲取與所述用戶評論具有重疊詞匯的句子;計算所述與所述用戶評論具有重疊詞匯的句子與所述用戶評論之間的語義相似度,根據所述語義相似度獲取針對所述用戶評論的主播回復;根據所述用戶評論和所述主播回復構建對話數據集。
根據本發明實施例提供的一種基于直播場景的對話數據集構建方法,所述根據所述語義相似度獲取針對所述用戶評論的主播回復,包括:將所述語義相似度介于第一閾值和第二閾值之間且取值最大時對應的所述與所述用戶評論具有重疊詞匯的句子作為所述主播回復;其中,所述第二閾值大于所述第一閾值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京紅棉小冰科技有限公司,未經北京紅棉小冰科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211534448.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種關聯對象的獲取方法、介質及設備
- 下一篇:用于一次性生物袋的裝夾裝置





