[發(fā)明專利]信息提取方法、裝置、計算機可讀存儲介質(zhì)及電子設備有效
| 申請?zhí)枺?/td> | 202010022597.5 | 申請日: | 2020-01-09 |
| 公開(公告)號: | CN111223481B | 公開(公告)日: | 2023-10-13 |
| 發(fā)明(設計)人: | 葛屾;王鍇;晏陽天;喬治;吳賢;范偉 | 申請(專利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G10L15/22 | 分類號: | G10L15/22;G10L15/26;G06F40/279 |
| 代理公司: | 深圳市聯(lián)鼎知識產(chǎn)權(quán)代理有限公司 44232 | 代理人: | 葉虹 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 信息 提取 方法 裝置 計算機 可讀 存儲 介質(zhì) 電子設備 | ||
本公開提供一種信息提取方法、信息提取裝置、計算機可讀存儲介質(zhì)及電子設備;涉及自然語言處理技術領域;包括:將接收到的音頻信號轉(zhuǎn)換為字符序列;根據(jù)字符序列中所包含的文本類型從字段識別模型中選取與文本類型一一對應的目標字段識別模型;通過所述目標字段識別模型識別字符序列中的參考字符片段;確定各目標字段識別模型分別輸出的參考字符片段的集合;對集合進行去重,并根據(jù)字符序列對應的特定字段從去重后的集合中提取特定字段對應的信息。可見,實施上述方法能夠提升對于語音識別的準確率,進而有效滿足用戶的語音識別需求。
技術領域
本公開涉及自然語言處理技術領域,具體而言,涉及一種信息提取方法、信息提取裝置、計算機可讀存儲介質(zhì)及電子設備。
背景技術
隨著科技的發(fā)展,移動終端不僅可以識別輸入的文字信息也可以識別輸入的語音信息對應的文字信息,以根據(jù)識別出的文字信息確定用戶需求并執(zhí)行相應的操作。舉例來說,用戶輸入語音信息“打開地圖”,移動終端可以對其進行識別并打開地圖應用程序。
除了搜索應用程序之外,用戶還可以通過語音輸入進行口述日記、搜索文章等。而當前的語音識別方式主要為:通過比對語音信號與數(shù)據(jù)庫中的預設信號,以確定出與之相匹配的預設信號對應的文本信息。然而,用戶需要口述日記、搜索文章等需求對于語音識別的準確度要求較高,但是,當前的語音識別方式識別準確率有限,無法有效滿足用戶的需求。
需要說明的是,在上述背景技術部分公開的信息僅用于加強對本公開的背景的理解,因此可以包括不構(gòu)成對本領域普通技術人員已知的現(xiàn)有技術的信息。
發(fā)明內(nèi)容
本公開的目的在于提供一種信息提取方法、信息提取裝置、計算機可讀存儲介質(zhì)及電子設備,實施本公開實施例能夠提升對于語音識別的準確率,進而有效滿足用戶的語音識別需求。
本公開的其他特性和優(yōu)點將通過下面的詳細描述變得顯然,或部分地通過本公開的實踐而習得。
根據(jù)本公開的第一方面,提供一種信息提取方法,包括:
將接收到的音頻信號轉(zhuǎn)換為字符序列;
根據(jù)字符序列中所包含的文本類型從字段識別模型中選取與文本類型一一對應的目標字段識別模型;
通過目標字段識別模型識別字符序列中的參考字符片段;
確定各目標字段識別模型分別輸出的參考字符片段的集合;
對集合進行去重,并根據(jù)字符序列對應的特定字段從去重后的集合中提取特定字段對應的信息。
在本公開的一種示例性實施例中,將接收到的音頻信號轉(zhuǎn)換為字符序列,包括:
將接收到的音頻信號切分為至少兩個音頻信號片段;其中,至少兩個音頻信號均為時域信號;
將時域信號轉(zhuǎn)換為頻域信號,并提取頻域信號中的聲學特征;
通過編碼器對聲學特征進行編碼以及通過與編碼器對應的解碼器對編碼結(jié)果進行解碼,并根據(jù)解碼結(jié)果生成字符序列。
在本公開的一種示例性實施例中,根據(jù)字符序列中所包含的文本類型從字段識別模型中選取與文本類型一一對應的目標字段識別模型,包括:
將字符序列轉(zhuǎn)換為第一特征向量;
通過第一特征向量生成用于表征字符序列中上下文關系的第二特征向量;
對第二特征向量進行分類,并根據(jù)分類結(jié)果確定字符序列中包含的文本類型;
從至少兩個字段識別模型中選取屬于文本類型的至少一個目標字段識別模型,至少一個目標字段識別模型與字符序列相匹配。
該專利技術資料僅供研究查看技術是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010022597.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設備、信息再現(xiàn)方法和信息再現(xiàn)設備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





