[發明專利]搜索詞糾錯對構建方法、終端及存儲介質有效
| 申請號: | 202010617014.3 | 申請日: | 2020-06-29 |
| 公開(公告)號: | CN111814455B | 公開(公告)日: | 2022-08-26 |
| 發明(設計)人: | 王異秀;譚賢;鄒若奇 | 申請(專利權)人: | 平安國際智慧城市科技股份有限公司 |
| 主分類號: | G06F40/232 | 分類號: | G06F40/232;G06F40/289 |
| 代理公司: | 深圳市賽恩倍吉知識產權代理有限公司 44334 | 代理人: | 陳敬華;楊毅玲 |
| 地址: | 518000 廣東省深圳市前海深港合*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 搜索詞 糾錯 構建 方法 終端 存儲 介質 | ||
1.一種搜索詞糾錯對構建方法,其特征在于,所述方法包括:
利用新詞發現算法計算出文本語料庫中每個詞語片段的鄰接熵和凝固度并根據所述鄰接熵和凝固度篩選出多個候選詞語片段;
基于所述多個候選詞語片段構建中文字形編輯距離樹及構建中文拼音編輯距離樹;
獲取用戶歷史搜索的多個文本數據,并利用所述新詞發現算法確定出所述多個文本數據中的多個用戶詞語片段;
針對每個用戶詞語片段,根據所述中文字形編輯距離樹及所述中文拼音編輯距離樹查詢出與所述用戶詞語片段對應的目標詞語片段,并基于所述用戶詞語片段和所述目標詞語片段構建多個詞語片段糾錯對;
計算每一個用戶詞語片段對應的詞語片段糾錯對的糾錯分值;
基于所述多個詞語片段糾錯對及對應的糾錯分值訓練第一糾錯對打分模型和第二糾錯對打分模型,包括:從所述多個詞語片段糾錯對中選取出第一預設數量的詞語片段糾錯對;為所述第一預設數量的詞語片段糾錯對設置標識;將所述第一預設數量的詞語片段糾錯對及對應的標識作為第一訓練數據;基于所述第一訓練數據訓練第一糾錯對打分模型及訓練第二糾錯對打分模型;從所述多個詞語片段糾錯對中選取出第二預設數量的詞語片段糾錯對輸入至所述第一糾錯對打分模型和第二糾錯對打分模型中;獲取所述第一糾錯對打分模型輸出的第一預測糾錯分值和所述第二糾錯對打分模型輸出的第二預測糾錯分值;計算所述第一預測糾錯分值及對應的所述第二預測糾錯分值之間的差值,并選取差值大于預設差值閾值的目標差值及獲取所述目標差值對應的第一詞語片段糾錯對;獲取所述第一預測糾錯分值及對應的所述第二預測糾錯分值均小于預設分值閾值的第二詞語片段糾錯對;將所述第一詞語片段糾錯對及所述第二詞語片段糾錯對添加至所述第一訓練數據中得到第二訓練數據,并基于所述第二訓練數據重新訓練所述第一糾錯對打分模型和所述第二糾錯對打分模型;
通過所述第一糾錯對打分模型和所述第二糾錯對打分模型從所述多個詞語片段糾錯對中識別出多個目標詞語片段糾錯對。
2.如權利要求1所述的搜索詞糾錯對構建方法,其特征在于,所述利用新詞發現算法計算出文本語料庫中每個詞語片段的鄰接熵和凝固度并根據所述鄰接熵和凝固度篩選出多個候選詞語片段包括:
利用新詞發現算法計算出文本語料庫中每個詞語片段的左鄰接熵、右鄰接熵和凝固度;
分別比較每個詞語片段的所述左鄰接熵、所述右鄰接熵和所述凝固度是否大于預設閾值;
篩選出左鄰接熵、右鄰接熵且凝固度均大于所述預設閾值的詞語片段并將篩選出的詞語片段作為候選詞語片段。
3.如權利要求1所述的搜索詞糾錯對構建方法,其特征在于,所述基于所述候選詞語片段構建中文字形編輯距離樹包括:
隨機選擇一個候選詞語片段作為中文字形編輯距離樹的根節點;
計算其余任意一個候選詞語片段與所述根節點處的候選詞語片段之間的編輯距離;
判斷是否存在與所述編輯距離相同的子節點;
當判斷存在與所述編輯距離相同的子節點時,將所述子節點作為父節點并將其余候選詞語片段作為所述父節點的子節點;
當判斷不存在與所述編輯距離相同的子節點時,將所述根節點作為父節點并將其余候選詞語片段作為所述父節點的子節點,
其中,所述父節點處的候選詞語片段與對應的所述子節點處的候選詞語片段之間的編輯距離作為所述父節點與所述子節點之間的邊的權重。
4.如權利要求1所述的搜索詞糾錯對構建方法,其特征在于,所述根據所述中文字形編輯距離樹及所述中文拼音編輯距離樹查詢出與所述用戶詞語片段對應的目標詞語片段包括:
遍歷所述多個候選詞語片段并查詢所述多個候選詞語片段中是否存在與所述用戶詞語片段相同的目標詞語片段;
當查詢不存在與所述用戶詞語片段相同的目標詞語片段時,從所述中文字形編輯距離樹查詢出與所述用戶詞語片段的編輯距離小于預設編輯距離閾值的目標詞語片段,及從所述中文拼音編輯距離樹查詢出與所述用戶詞語片段的拼音的編輯距離小于預設編輯距離閾值的目標詞語片段。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安國際智慧城市科技股份有限公司,未經平安國際智慧城市科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010617014.3/1.html,轉載請聲明來源鉆瓜專利網。





