[發明專利]對話識別方法、裝置、電子設備及計算機可讀存儲介質在審
| 申請號: | 202111372165.8 | 申請日: | 2021-11-18 |
| 公開(公告)號: | CN114091476A | 公開(公告)日: | 2022-02-25 |
| 發明(設計)人: | 王珍珠;張建 | 申請(專利權)人: | 北京淘友天下科技發展有限公司 |
| 主分類號: | G06F40/35 | 分類號: | G06F40/35 |
| 代理公司: | 北京市立方律師事務所 11330 | 代理人: | 張筱寧 |
| 地址: | 100083 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 對話 識別 方法 裝置 電子設備 計算機 可讀 存儲 介質 | ||
本申請實施例提供了一種對話識別方法、裝置、電子設備及計算機可讀存儲介質,涉及自然語言理解領域。該方法包括:響應于選中目標聊天對話的操作,展示對話識別控件,向用戶提供了一種直觀便捷的識別對話的觸發方式,響應于觸發對話識別控件,展示目標聊天對話經對話識別后的識別結果,其中對話識別結果用于指示目標聊天對話是否包括詐騙信息,通過分析目標聊天對話的文本內容,直觀的展示對話識別結果,避免有不良目的的用戶對正常用戶的錯誤引導,導致用戶時間、金錢上的損失。
技術領域
本申請涉及自然語言理解技術領域,具體而言,本申請涉及一種對話識別方法、裝置、電子設備及計算機可讀存儲介質。
背景技術
隨著網絡技術的發展,人們在日常生活中可以通過終端設備連接互聯網實時了解各種各樣的信息,尤其對于職場社交領域,招聘者和求職者可以通過具有即時通訊功能的軟件進行聊天對話,以進行招聘和求職。
現有技術中一般使用基于詞頻的方法(term frequency–inverse documentfrequency,TF-IDF)對文本進行語義識別,具體地步驟一般為基于分詞詞典將文本內容進行切詞,然后計算其中每個詞的出現的頻率,提取或選出關鍵詞,進而確定該文本的語義。
對于用戶之間溝通產生的聊天對話的文本內容,由于聊天常用詞在與時俱進的更新,現有技術中基于分詞詞典進行分詞時,存在分詞不夠準確的問題,需要定期維護分詞詞典;并且假設性太強,根據詞頻來衡量聊天對話的語義不夠全面,存在某些關鍵詞出現的頻率很少,但其語義很重要,例如詐騙信息,現有技術無法識別出來。
發明內容
本申請實施例提供了一種對話識別方法、裝置、電子設備及計算機可讀存儲介質,可以解決上述問題。所述技術方案如下:
根據本申請實施例的一個方面,提供了一種對話識別方法,該方法包括:
響應于選中目標聊天對話的操作,展示對話識別控件;
響應于觸發對話識別控件,展示目標聊天對話經對話識別后的識別結果;
其中,識別結果用于指示目標聊天對話是否包括詐騙信息。
在一個可能的實現方式中,響應于觸發對話識別控件,展示目標聊天對話經對話識別后的識別結果,包括:
將目標聊天對話的文本內容輸入預先訓練的對話識別模型中,獲得對話識別模型輸出的文本內容中包括詐騙信息的概率;
若確定概率大于或等于預設閾值,則確定識別結果為目標聊天對話包括詐騙信息;
其中,對話識別模型是以預先獲取到的樣本聊天對話的文本內容為訓練樣本,以樣本聊天對話的文本內容中是否包括詐騙信息為訓練標簽訓練而成。
在另一個可能的實現方式中,對話識別模型的訓練過程包括:
獲取訓練樣本和訓練標簽,訓練樣本包括第一文本和第二文本;第一文本包括詐騙信息;第二文本不包括詐騙信息;訓練標簽用于表征相應的訓練樣本是否包括詐騙信息;
以訓練樣本和訓練標簽對初始神經網絡模型訓練,以獲得對話識別模型。
在又一個可能的實現方式中,將目標聊天對話的文本內容輸入預先訓練的對話識別模型中,之前還包括:
將目標聊天對話的文本內容中的每一條對話文本按照每一條對話文本產生的時間順序排列;
若確定任意相鄰的兩句對話文本為同一對話對象產生的,則使用第一預設字符拼接相鄰的兩條對話文本,獲得拼接后的文本內容,和/或,若確定相鄰的兩條對話文本為不同對話對象產生的,則使用第二預設字符拼接相鄰的兩條對話文本,獲得拼接后的文本內容。
在又一個可能的實現方式中,初始神經網絡為BERT模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京淘友天下科技發展有限公司,未經北京淘友天下科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111372165.8/2.html,轉載請聲明來源鉆瓜專利網。





