[發明專利]一種語音識別及實體識別后的影視實體糾錯方法在審
| 申請號: | 201911023854.0 | 申請日: | 2019-10-25 |
| 公開(公告)號: | CN110782881A | 公開(公告)日: | 2020-02-11 |
| 發明(設計)人: | 孫云云;劉楚雄;唐軍 | 申請(專利權)人: | 四川長虹電器股份有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/26;G06F40/279;G06F40/232 |
| 代理公司: | 51124 成都虹橋專利事務所(普通合伙) | 代理人: | 吳中偉 |
| 地址: | 621000 四*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音識別 命名實體 文本數據 樣本數據 影視 預處理 封裝處理 糾錯處理 糾錯結果 人機交互 實體識別 實體數據 實體驗證 修正數據 驗證失敗 影響因素 影響用戶 語音交互 語音文本 語音轉化 構建 糾錯 搜索 噪音 預測 分析 | ||
本發明涉及語音文本處理,其公開了一種語音識別及實體識別后的影視實體糾錯方法,解決由于用戶在人機交互時由于普通話不標準、搜索句式不完整、噪音等影響因素造成語音識別的影視實體不完整、錯誤而影響用戶體驗的問題。該方法包括以下步驟:A、對語音轉化后的文本數據進行分析和預處理,獲取樣本數據集;B、利用樣本數據訓練基于Bilstm+crf的命名實體識別模型;C、通過對近期用戶高頻請求的影視實體數據進行處理,構建實體修正數據集;D、實際語音交互過程中,根據語音識別后的文本數據,利用訓練的基于Bilstm+crf的命名實體識別模型進行預測及實體驗證;E、對驗證失敗的實體進行糾錯處理;F、對糾錯結果進行封裝處理。
技術領域
本發明涉及語音文本處理,具體涉及一種語音識別及實體識別后的影視實體糾錯方法。
背景技術
隨著深度學習的普及,在計算機視覺、語音識別、自然語言處理等方面均取得重大突破。目前語音識別準確率已達到97%。相對于其它人機交互方式,語音交互更為符合人們的日常習慣,更為高效,因此,語音識別技術將廣泛應用于智能家居、工業生產、通信、醫療、自動駕駛等各個領域。對于每個家庭必備的電視也少不了要智能化,通過電視就可以操作家里的一切設備,躺在沙發上動動嘴就可以觀看心儀的影片。智能電視可實現雙向人機交互功能,集影音、娛樂、數據等多種功能于一體,以滿足用戶多樣化和個性化需求的電視產品。其目的是帶給用戶更便捷的體驗,目前已經成為電視的潮流趨勢。
在實際智能電視語音交互過程中,由于用戶多為老年人和兒童,老年人普通話不標準、常用方言,兒童搜索視頻時句式不完整,只記住動畫片中人物角色及環境噪音等各種因素影響,語音識別錯誤率較高。而現有技術都集中在提升語音識別準確率上,卻缺乏對識別結果的進一步處理。
由于環境噪聲以及設備、口音等因素的干擾,語音識別轉換為文本往往包含了大量的噪聲數據,比如同音詞、近似音詞、錯別字等錯誤文本數據,這樣的文本錯誤往往會帶來分詞錯誤。目前大多數的語音識別后文本糾錯都是基于詞的識別結果結合概率的統計方法,這樣的方法存在兩個問題:一是語音識別的錯誤會導致分詞錯誤,而在分詞過程往往因為錯誤詞導致提取了錯誤的詞項;二是在特定領域用途中,由于缺乏大規模語料庫,有限的語料樣本很難準確反映真實的詞項概率分布,通過計算概率的方法并不能達到理論預期。因此,在實際運用過程中,比如在對話機器人的應用中,通過統計方法去實現文本糾錯的效果并不理想,對后續的語義分析和意圖識別形成極大的阻力。
發明內容
本發明所要解決的技術問題是:提出一種語音識別及實體識別后的影視實體糾錯方法,解決由于用戶在人機交互時由于普通話不標準、搜索句式不完整、噪音等影響因素造成語音識別的影視實體不完整、錯誤而影響用戶體驗的問題。
本發明解決上述技術問題采用的技術方案是:
一種語音識別及實體識別后的影視實體糾錯方法,包括以下步驟:
A、對語音轉化后的文本數據進行分析和預處理,獲取樣本數據集;
B、利用樣本數據訓練基于Bilstm+crf的命名實體識別模型;
C、通過對近期用戶高頻請求的影視實體數據進行處理,構建實體修正數據集;
D、實際語音交互過程中,根據語音識別后的文本數據,利用訓練的基于Bilstm+crf的命名實體識別模型進行預測及實體驗證,若實體驗證通過,則返回輸出,若實體驗證失敗,則進入步驟E;
E、對驗證失敗的實體進行糾錯處理;
F、對糾錯結果進行封裝處理。
作為進一步優化,步驟A具體包括:
將從電視終端采集到的語音轉換后的用戶文本數據進行聚類分析,確定影視實體類別、wordid及tagid,對用戶常用搜索句式做實體標簽標注,利用word2vec訓練300維字符向量,作為樣本數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川長虹電器股份有限公司,未經四川長虹電器股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911023854.0/2.html,轉載請聲明來源鉆瓜專利網。





