[發明專利]謊言識別方法及裝置、存儲介質、計算機設備在審
| 申請號: | 201910346425.0 | 申請日: | 2019-04-26 |
| 公開(公告)號: | CN110222331A | 公開(公告)日: | 2019-09-10 |
| 發明(設計)人: | 朱文和 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G10L15/26 |
| 代理公司: | 北京中強智尚知識產權代理有限公司 11448 | 代理人: | 黃耀威 |
| 地址: | 518000 廣東省深圳市福田街*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本文件 特征矩陣 樣本音頻 句子 標簽 計算機設備 存儲介質 音頻文件 矩陣 句子分割 句子特征 模型訓練 文件轉換 構建 申請 說話 語言 | ||
1.一種謊言識別方法,其特征在于,包括:
獲取樣本音頻文件以及與所述樣本音頻文件對應的標簽;
將所述樣本音頻文件轉換為文本文件;
對所述文本文件進行句子分割處理,得到與所述文本文件對應的句子文本文件;
根據所述句子文本文件,構建所述句子文本文件對應的特征矩陣;
根據所述特征矩陣以及所述特征矩陣對應的標簽,訓練謊言識別模型,其中,所述特征矩陣對應的標簽為與所述特征矩陣相應的所述句子文本文件所在的所述樣本音頻文件對應的所述標簽;
根據訓練后的所述謊言識別模型,對待識別音頻文件進行識別,得出與所述待識別音頻文件對應的識別結果。
2.根據權利要求1所述的方法,其特征在于,所述將所述謊言樣本音頻文件轉換為文本文件,具體包括:
解析所述樣本音頻文件,得到按照時間順序排列的非空音頻和空白音頻;
檢測每一段所述空白音頻的持續時長,并根據所述持續時長確定與每一段所述空白音頻對應的空白標記;
將每一段所述非空音頻轉換成對應的文本,并按照所述時間順序將每一段所述非空音頻對應的文本和每一段所述空白音頻對應的空白標記進行排列,得到所述樣本音頻文件對應的所述文本文件。
3.根據權利要求2所述的方法,其特征在于,所述根據所述句子文本文件,構建所述句子文本文件對應的特征矩陣,具體包括:
根據所述句子文本文件,提取所述句子文本文件對應的特征詞以及所述空白標記;
根據與所述特征詞對應的特征詞向量以及與所述空白標記對應的空白標記向量,構建所述句子文本文件的特征矩陣,其中,所述特征詞向量與所述空白標記向量為預設向量維度。
4.根據權利要求3所述的方法,其特征在于,所述根據與所述特征詞對應的特征詞向量以及與所述空白標記對應的空白標記向量,構建所述句子文本文件的特征矩陣,具體包括:
計算所述特征詞以及所述空白標記的總數量;
若所述總數量大于或等于預設數量,則按照所述預設數量和所述特征詞以及所述空白標記在所述句子文本文件中的先后順序,截取所述句子文本文件對應的所述特征詞以及所述空白標記,并根據截取后的所述特征詞對應的特征詞向量以及所述空白標記對應的空白標記向量,構建所述句子文本文件的特征矩陣;
若所述總數量小于所述預設數量,則計算所述預設數量與所述總數量之差得到缺失數量,并根據與所述特征詞對應的特征詞向量、與所述空白標記對應的空白標記向量以及所述缺失數量的所述預設向量維度的0向量,構建所述句子文本文件的特征矩陣。
5.根據權利要求1至4中任一項所述的方法,其特征在于,所述根據訓練后的所述謊言識別模型,對待識別音頻文件進行識別,得出與所述待識別音頻文件對應的識別結果,具體包括:
將所述待識別音頻文件轉換為對應的待識別文本文件;
按照所述待識別文本文件中的標點信息,對所述待識別文本文件進行句子分割處理,得到對應的待識別句子文本文件;
根據所述待識別句子文本文件,構建所述待識別句子文本文件對應的待識別特征矩陣;
分別將每個所述待識別特征矩陣輸入至訓練后的所述謊言識別模型中,得出與每個所述待識別句子文本文件對應的識別結果;
統計所述待識別句子文本文件的總數量以及所述識別結果為謊言的所述待識別句子文本文件的數量,計算所述識別結果為謊言的所述待識別句子文本文件占全部的所述待識別句子文本文件的比例;
若所述比例超過預設謊言閾值,則所述待識別音頻文件存在謊言,否則,所述待識別音頻文件不存在謊言。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910346425.0/1.html,轉載請聲明來源鉆瓜專利網。





