[發明專利]對話角色區分方法和系統有效
| 申請號: | 201711077745.8 | 申請日: | 2017-11-03 |
| 公開(公告)號: | CN107885723B | 公開(公告)日: | 2021-04-09 |
| 發明(設計)人: | 英高海 | 申請(專利權)人: | 廣州杰賽科技股份有限公司 |
| 主分類號: | G06F40/35 | 分類號: | G06F40/35;G06F40/00;G10L15/26 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 梁順宜;郝傳鑫 |
| 地址: | 510310 廣東省廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 對話 角色 區分 方法 系統 | ||
本發明公開了一種對話角色區分方法,所述方法包括:根據待分析對話的對白和區分性詞語庫獲取所述待分析對話的對白的所有區分性詞語;其中,所述區分性詞語庫包括預先獲取的數量為第一設定數量的區分性詞語;根據所述待分析對話的對白的所有區分性詞語和預先根據對話語料庫建立的對話角色判決模型獲取與所述待分析對話的對白對應的對話角色的標簽;其中,所述對話語料庫包括多句標準對白和對應于各句所述標準對白的對話角色的標簽;根據識別到的所述待分析對話的所有對白對應的對話角色的標簽區分所述待分析對話中的對話角色。本發明的對話角色區分方法實現了對話角色的區分,同時本發明還提供了一種對話角色區分系統。
技術領域
本發明涉及數據處理技術領域,特別涉及對話角色區分方法和系統。
背景技術
通常對話內容會涉及兩個以上的對話角色,在一些場合需要針對某個對話角色的對白進行分析,因此,需要將對話角色進行區分。
傳統的對話角色區分方法主要通過識別說話者的聲紋特征來區分說話者身份,并在語音轉化為文本時根據說話者身份將對話內容的文本進行標簽。
發明人在實施本發明的過程中,發現現有的對話角色區分方法具有如下缺點:
現有的對話角色區分方法需要對不同人的聲紋特征進行采集,其易受不同人的身體狀況、年齡、情緒等因素的影響以及環境噪音的干擾,此外,在混合說話人的情形下人的聲紋特征不易提取,導致對話角色區分方法實現難度大,準確性低。
發明內容
本發明提出對話角色區分方法和系統,實現對話角色的區分,提高準確性。
本發明一方面提供一種對話角色區分方法,所述方法包括:
根據待分析對話的對白和區分性詞語庫獲取所述待分析對話的對白的所有區分性詞語;其中,所述區分性詞語庫包括預先獲取的數量為第一設定數量的區分性詞語;
根據所述待分析對話的對白的所有區分性詞語和預先根據對話語料庫建立的對話角色判決模型獲取與所述待分析對話的對白對應的對話角色的標簽;其中,所述對話語料庫包括多句標準對白和對應于各句所述標準對白的對話角色的標簽;
分別獲取所述待分析對話的對白的各個區分性詞語在所述待分析對話的對白中的詞頻,作為第一組參量;
對所述待分析對話的對白的各個所述區分性詞語,分別獲取對話語料庫中具有對應的區分性詞語的標準對白的數量;
對所述待分析對話的對白的各個所述區分性詞語,分別根據所述對話語料庫的標準對白的總數和所述對話語料庫中具有對應的區分性詞語的標準對白的數量獲取第二組參量;
根據所述第一組參量和所述第二組參量生成所述待分析對話的對白的特征向量;
將所述待分析對話的對白的特征向量輸入至所述對話角色判別模型,以識別出與所述待分析對話的對白對應的對話角色的標簽;
根據識別到的所述待分析對話的所有對白對應的對話角色的標簽區分所述待分析對話中的對話角色。
在一種可選的實施方式中,所述方法還包括:
響應于訓練所述對話角色判別模型的指令,對所述區分性詞語庫的各個區分性詞語,分別獲取對應的區分性詞語在所述對話語料庫的各句所述標準對白中的詞頻,作為第三組參量;
對所述區分性詞語庫的各個區分性詞語,分別獲取所述對話語料庫中具有對應的區分性詞語的標準對白的數量;
對所述區分性詞語庫的各個區分性詞語,分別根據所述對話語料庫的標準對白的總數和所述對話語料庫中具有對應的區分性詞語的標準對白的數量獲取第四組參量;
根據所述第三組參量和所述第四組參量生成各句所述標準對白的特征向量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州杰賽科技股份有限公司,未經廣州杰賽科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711077745.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種用于電動座椅調節四項開關線束
- 下一篇:一種高通用性配電裝置





