[發明專利]對話源數據處理方法及裝置、電子設備、計算機可讀介質有效
| 申請號: | 202010107942.5 | 申請日: | 2020-02-21 |
| 公開(公告)號: | CN111339767B | 公開(公告)日: | 2023-07-21 |
| 發明(設計)人: | 翟周偉 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司;上海小度技術有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/216 |
| 代理公司: | 北京天昊聯合知識產權代理有限公司 11112 | 代理人: | 彭瑞欣;馮建基 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 對話 數據處理 方法 裝置 電子設備 計算機 可讀 介質 | ||
1.一種對話源數據處理方法,其包括:
步驟101,基于對話源數據獲取有效對話源數據;
步驟102,利用所述有效對話源數據獲取對話樣本;
所述利用所述有效對話源數據獲取對話樣本,包括:
通過對撞對齊方式將所述有效對話源數據中的對話內容分割成N個片段;其中,N為大于或等于1的整數;
對所述片段進行切分,獲得分詞粒度;
對所述分詞粒度的邊界和粒度進行修正,獲得對話樣本;
步驟103,基于所述對話樣本構建切詞模型;
步驟104,將所述切詞模型應用于對話系統,依據用戶行為獲得新的所述對話源數據,并將新獲得的所述對話源數據返回至步驟101。
2.根據權利要求1所述的方法,其中,所述依據對話源數據獲取有效對話源數據,包括:
從所述對話源數據獲得對話滿意度;
提取所述對話滿意度大于滿意度閾值的對話源數據作為所述有效對話源數據。
3.根據權利要求1所述的方法,其中,所述片段為最大公共片段。
4.根據權利要求1所述的方法,其中,所述分詞粒度包括基本詞粒度和混排詞粒度中的一種或多種。
5.根據權利要求1所述的方法,其中,所述對所述分詞粒度的邊界和粒度進行修正,獲得對話樣本,包括:
統計所述分詞粒度的對齊次數、被分割次數和被獨立搜索次數;
基于所述對齊次數、所述被分割次數、所述被獨立搜索次數和專有名詞計算所述分詞粒度的合并概率;
基于所述對齊次數、所述被分割次數計算所述分詞粒度的被分割概率;
根據所述合并概率和所述被分割概率修正所述分詞粒度,以獲得所述對話樣本。
6.根據權利要求1所述的方法,其中,所述基于所述對話樣本構建切詞模型,包括:
利用所述對話樣本通過門控循環模型和條件隨機場模型構建序列標注模型。
7.根據權利要求6所述的方法,其中,所述序列標注模型包括基本詞模型和混排詞模型。
8.一種對話源數據處理裝置,其包括:
有效數據獲取模塊,用于基于對話源數據獲取有效對話源數據;
樣本獲取模塊,用于利用所述有效對話源數據獲取對話樣本;
所述樣本獲取模塊,包括:
分割單元,用于通過對撞對齊方式將所述對話源數據中的對話內容分割成N個片段;其中,N為大于或等于1的整數;
切詞單元,用于對所述片段進行切分,獲得分詞粒度;
樣本獲取單元,用于對所述分詞粒度的邊界和粒度進行修正,獲得對話樣本;
模型構建模塊,用于基于所述對話樣本構建切詞模型;
源數據獲取模塊,用于將所述切詞模型應用于對話系統,依據用戶行為獲得新的所述對話源數據,并將新的所述對話源數據返回至所述有效數據獲取模塊。
9.根據權利要求8所述的裝置,其中,所述有效數據獲取模塊包括:
滿意度獲取單元,用于從所述對話源數據獲得對話滿意度;
提取單元,用于提取所述對話滿意度大于滿意度閾值的對話源數據作為所述有效對話源數據。
10.根據權利要求8所述的裝置,其中,所述樣本獲取單元,包括:
統計子單元,用于統計所述分詞粒度的對齊次數、被分割次數和被獨立搜索次數;
合并概率計算子單元,用于基于所述對齊次數、所述被分割次數、所述被獨立搜索次數和專有名詞計算所述分詞粒度的合并概率;
被分割概率計算子單元,用于基于所述對齊次數、所述被分割次數計算所述分詞粒度的被分割概率;
分詞粒度修正子單元,用于根據所述合并概率和所述被分割概率修正所述分詞粒度,以獲得所述對話樣本。
11.根據權利要求8所述的裝置,其中,所述模型構建模塊利用所述對話樣本通過門控循環模型和條件隨機場模型構建序列標注模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司;上海小度技術有限公司,未經百度在線網絡技術(北京)有限公司;上海小度技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010107942.5/1.html,轉載請聲明來源鉆瓜專利網。





