[發明專利]一種檢索文本糾錯方法、裝置和存儲介質在審
| 申請號: | 202010182740.7 | 申請日: | 2020-03-16 |
| 公開(公告)號: | CN111382260A | 公開(公告)日: | 2020-07-07 |
| 發明(設計)人: | 吳上權;周藍珺;潘樹燊 | 申請(專利權)人: | 騰訊音樂娛樂科技(深圳)有限公司 |
| 主分類號: | G06F16/335 | 分類號: | G06F16/335;G06F16/33;G06F40/205;G06F40/232 |
| 代理公司: | 深圳翼盛智成知識產權事務所(普通合伙) 44300 | 代理人: | 彭緒坤 |
| 地址: | 518000 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 檢索 文本 糾錯 方法 裝置 存儲 介質 | ||
1.一種檢索文本糾錯方法,其特征在于,所述檢索文本糾錯方法包括:
接收輸入的待檢索文本,并對所述待檢索文本進行局部或全部替換,得到糾錯文本;
將所述糾錯文本以及所述待檢索文本設為候選檢索文本,得到多個候選檢索文本;
調用預先訓練的評分函數對所述候選檢索文本進行評分,得到所述候選檢索文本的評分;
根據所述候選檢索文本的評分,從多個所述候選檢索文本中選取出用于檢索的目標檢索文本。
2.根據權利要求1所述的檢索文本糾錯方法,其特征在于,調用預先訓練的評分函數對所述候選檢索文本進行評分,得到所述候選檢索文本的評分,包括:
獲得所述候選檢索文本的文本特征,所述文本特征包括以下幾項中的任意一項或多項:語言模型評分、替換為糾錯文本的概率、歷史操作行為特征、劃分的文本片段個數特征、與糾錯文本的發音相似度、序列轉換過程中的狀態特征、詞向量特征;
向量化所述文本特征,得到特征向量;
將所述特征向量輸入至預先訓練的評分函數中,得到所述候選檢索文本的評分。
3.根據權利要求2所述的檢索文本糾錯方法,其特征在于,所述待檢索文本為用于檢索音樂文件的文本,所述語言模型評分的獲得方式包括:
獲得基于音樂知識庫構建的語言模型;
基于所述語言模型對所述待檢索文本進行評分,得到語言模型評分。
4.根據權利要求1-3任一項所述的檢索文本糾錯方法,其特征在于,所述對所述待檢索文本進行局部或全部替換,得到糾錯文本的步驟包括:
獲得預先構建的糾錯詞典,所述糾錯詞典記錄有:檢索文本中被替換文本片段與替換后文本片段的對應關系,和/或,檢索文本中的文本片段及其發音信息之間的對應關系;
根據所述糾錯詞典,識別并替換所述待檢索文本中需要替換的目標文本片段,得到所述糾錯文本。
5.根據權利要求4所述的檢索文本糾錯方法,其特征在于,所述糾錯詞典的構建方式包括:
獲取歷史檢索文本,以及獲取所述歷史檢索文本對應的原始輸入文本;
比較所述歷史檢索文本以及所述原始輸入文本,確定出所述原始輸入文本中的被替換文本片段以及所述歷史檢索文本中對應的替換后文本片段;
將所述被替換文本片段與所述替換后文本片段之間的對應關系,記錄在糾錯詞典中。
6.根據權利要求4所述的檢索文本糾錯方法,其特征在于,所述糾錯詞典的構建方式包括:
從檢索服務器獲取云端歷史檢索文本;
將所述云端歷史檢索文本劃分為多個歷史文本片段,并獲取所述歷史文本片段的發音信息;
將所述歷史文本片段及其發音信息之間的對應關系,記錄在糾錯詞典中。
7.根據權利要求4所述的檢索文本糾錯方法,其特征在于,所述糾錯詞典的構建方式包括:
從所述檢索服務器獲取檢索熱度值高于預設熱度值的熱搜文本;
將所述熱搜文本劃分為多個熱搜文本片段,并獲取所述熱搜文本片段的發音信息;
將所述熱搜文本片段及其發音信息之間的對應關系,記錄在糾錯詞典中。
8.根據權利要求1-3任一項所述的檢索文本糾錯方法,其特征在于,所述根據所述候選檢索文本的評分,從多個所述候選檢索文本中選取出用于檢索的目標檢索文本的步驟之后,還包括:
對所述目標檢索文本的完整性進行校驗;
若所述目標檢索文本不完整,則根據預設的不同檢索文本之間的關聯關系,獲取關聯所述目標檢索文本的關聯檢索文本;
根據所述關聯檢索文本補齊所述目標檢索文本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊音樂娛樂科技(深圳)有限公司,未經騰訊音樂娛樂科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010182740.7/1.html,轉載請聲明來源鉆瓜專利網。





