[發明專利]一種基于人工智能的多模態語義識別服務接入方法在審
| 申請號: | 202011036983.6 | 申請日: | 2020-09-28 | 
| 公開(公告)號: | CN112201228A | 公開(公告)日: | 2021-01-08 | 
| 發明(設計)人: | 黃晨宇 | 申請(專利權)人: | 蘇州貝果智能科技有限公司 | 
| 主分類號: | G10L15/18 | 分類號: | G10L15/18;G10L15/25;G10L15/02;G10L15/08;G10L25/57 | 
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 | 
| 地址: | 215000 江蘇省蘇州市昆山市*** | 國省代碼: | 江蘇;32 | 
| 權利要求書: | 查看更多 | 說明書: | 查看更多 | 
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 人工智能 多模態 語義 識別 服務 接入 方法 | ||
本發明公開了一種基于人工智能的多模態語義識別服務接入方法,包括基于多模態對齊的語音情感識別的模型,首先通過語音進行識別,識別時,通過視頻設備、錄音設備進行語音的收集,收集好的語音信息先進行分類,分類后的語音進行特征標記,然后將收集好的語音進行分析,利用雙向長短期記憶模型對音頻基于幀進行高維特征表示。本發明利用多模態模型比單一模態訓練出的模型更精準,所以即使在實際使用中只使用一個模態輸入,由多模態訓練得到的模型也會優于單模態訓練得到的模型,對不同模態的關聯融合進行中間層特征融合和最后層的融合時,每種模態的特征識別產生各自的置信度,從而在互相融合時將置信度作為貢獻的權重。
技術領域
本發明涉及語義識別領域,特別涉及一種基于人工智能的多模態語義識別服務接入方法。
背景技術
語音情感識別是一個非常具有挑戰性的問題,因為人們總是以微妙和復雜的方式傳達情感。對于語音情感識別,當前的方法主要包括:1)直接通過語音信號特征;2)通過語音識別的文本特征;3)融合音頻和文本的多模態特征,在進行語義識別時,無法做到更加準確的識別,導致語義識別差,無法更好的理解語義。
發明內容
本發明的目的在于提供一種基于人工智能的多模態語義識別服務接入方法,以解決上述背景技術中提出的問題。
為實現上述目的,本發明提供如下技術方案:一種基于人工智能的多模態語義識別服務接入方法,包括基于多模態對齊的語音情感識別的模型,首先通過語音進行識別,識別時,通過視頻設備、錄音設備進行語音的收集,收集好的語音信息先進行分類,分類后的語音進行特征標記,然后將收集好的語音進行分析,利用雙向長短期記憶模型對音頻基于幀進行高維特征表示,且對語音識別出的文字進行特征化,對特征化的語音與相對應的文字進行匹配,匹配后的語音按照情緒特征進行分類,最后對識別出來的文字和信息進行整理,將整理的信息再次特征化。
優選的,基于多模態融合的訓練,進行人工智能的語音訓練,人機互動包含語音、圖片、視頻和文字,從幀序列中提取出語音和圖像視頻特征,按語音對應的視頻片段,在各個中間階段的不同模態之間的特征可以融合,在最后把不同模態的特征合并連接在一起又會形成混合的特征向量,最后融合的特征集,可以用支持向量機自動進行二分類。
優選的,語音識別相關的視頻在于嘴部的圖像和運動信息,將嘴部作為感興趣區域,嘴部感興趣區域都縮放到歸一化的像素尺寸,進一步降維,用1-4幀連續視頻作為輸入,對應3-10幀連續語音的幀,對每個模態,在時間上進行特征平均值歸一化,時間序列的導數用歸一化線性斜率表示,體現了信號的變化特征,在訓練和實際使用中,對缺失一種模態,即缺失語音、文字和視頻的情況,依靠其它一種或二種模態進行工作,語音來自獨立麥克風或從視頻中提取,文字來自字幕、用戶打字輸入,圖像視頻中識別出的字符。
優選的,多模態語義識別服務還包括自然語言理解引擎,自然語言理解引擎采用多模態推理技術,對于多個領域的客服知識庫,引擎采用文本聚類技術自動將知識點分為不同的子類,在每個子類知識庫的推理過程中采用不同的參數,表現為多個相互獨立的引擎模態,細化推理顆粒度,同時在軟件技術上采用多線程方式。
優選的,融合文字與圖像視頻深度學習神經網絡,利用文字和視覺之間的交叉相關提供用戶問題的答案,多模態神經網絡模型包含圖像神經網絡用于描述圖像信息,另一個文字語義匹配神經網絡進行文本信息中的單詞的語義構建,兩種模態之間的融合體現在由模型學習圖像與文本之間的關聯匹配關系。
優選的,基于手機拍照時的彩色圖像和手機自帶的激光測距得到的深度圖,二者通過雙模態信息的融合,實現機器人對目標的理解和分類。
優選的,基于文字的深度學習網絡和基于圖像的網絡,在各層的中間特征層面進行多模態融合,并且在最后的輸出進行融合,從而對圖文并茂的內容進行綜合理解,可以理解用戶表達的喜怒哀樂情緒。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州貝果智能科技有限公司,未經蘇州貝果智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011036983.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:USB外設、話機設備及話機系統
- 下一篇:石灰改良膨脹土擊實試驗方法





