[發(fā)明專利]搜索詞糾錯(cuò)對(duì)構(gòu)建方法、終端及存儲(chǔ)介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 202010617014.3 | 申請(qǐng)日: | 2020-06-29 |
| 公開(公告)號(hào): | CN111814455B | 公開(公告)日: | 2022-08-26 |
| 發(fā)明(設(shè)計(jì))人: | 王異秀;譚賢;鄒若奇 | 申請(qǐng)(專利權(quán))人: | 平安國際智慧城市科技股份有限公司 |
| 主分類號(hào): | G06F40/232 | 分類號(hào): | G06F40/232;G06F40/289 |
| 代理公司: | 深圳市賽恩倍吉知識(shí)產(chǎn)權(quán)代理有限公司 44334 | 代理人: | 陳敬華;楊毅玲 |
| 地址: | 518000 廣東省深圳市前海深港合*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 搜索詞 糾錯(cuò) 構(gòu)建 方法 終端 存儲(chǔ) 介質(zhì) | ||
本發(fā)明涉及人工智能技術(shù)領(lǐng)域,提供一種搜索詞糾錯(cuò)對(duì)構(gòu)建方法、終端及存儲(chǔ)介質(zhì),包括:基于從文本語料庫中篩選出的多個(gè)候選詞語片段構(gòu)建兩顆編輯距離樹;獲取用戶歷史搜索的多個(gè)文本數(shù)據(jù)中的多個(gè)用戶詞語片段;針對(duì)每個(gè)用戶詞語片段,根據(jù)兩顆編輯距離樹查詢出對(duì)應(yīng)的目標(biāo)詞語片段,基于用戶詞語片段和目標(biāo)詞語片段構(gòu)建多個(gè)詞語片段糾錯(cuò)對(duì)及計(jì)算糾錯(cuò)分值;基于多個(gè)詞語片段糾錯(cuò)對(duì)及糾錯(cuò)分值訓(xùn)練兩個(gè)糾錯(cuò)對(duì)打分模型,從而從多個(gè)詞語片段糾錯(cuò)對(duì)中識(shí)別出多個(gè)目標(biāo)詞語片段糾錯(cuò)對(duì)。本發(fā)明能夠從海量數(shù)據(jù)中構(gòu)建出多個(gè)詞語片段糾錯(cuò)對(duì),提高搜索效率。此外,本發(fā)明還涉及區(qū)塊鏈技術(shù)領(lǐng)域,多個(gè)目標(biāo)詞語片段糾錯(cuò)對(duì)存儲(chǔ)于區(qū)塊鏈中。
技術(shù)領(lǐng)域
本發(fā)明涉及人工智能技術(shù)領(lǐng)域,具體涉及一種搜索詞糾錯(cuò)對(duì)構(gòu)建方法、終端及存儲(chǔ)介質(zhì)。
背景技術(shù)
搜索詞糾錯(cuò)是自然語言處理的經(jīng)典任務(wù),在搜索任務(wù)中,對(duì)搜索詞進(jìn)行糾錯(cuò)可以提升搜索系統(tǒng)的召回指標(biāo),提升用戶的搜索體驗(yàn)。搜索詞糾錯(cuò)的算法一般通過獲取糾錯(cuò)對(duì)的方式,通過檢索獲取、日志獲取、平行語料對(duì)中抽取的方式。
然而,當(dāng)需要在狹窄搜索領(lǐng)域中進(jìn)行搜索時(shí),用戶往往存在一個(gè)非常明確的搜索意圖,搜索的目標(biāo)領(lǐng)域多為專有名詞,與通用的語料數(shù)據(jù)具有很大的差距。在狹窄搜索領(lǐng)域下,傳統(tǒng)的搜索詞糾錯(cuò)方案直接進(jìn)行應(yīng)用可能存在如下問題:難以直接獲取平行語料對(duì),垂直領(lǐng)域搜索時(shí)用戶搜索的關(guān)鍵詞短小,搜索人名時(shí)可能出現(xiàn)拼音、字形都無法完全匹配的情況,傳統(tǒng)的通過語料構(gòu)建難以獲得有效的平行語料;在搜索日志不夠完備的情況下,也無法通過日志抽取潛在的糾錯(cuò)對(duì);狹窄領(lǐng)域下含有大量專有名詞,分詞算法分出的詞匯,不足以作為糾錯(cuò)的基本單位;狹窄領(lǐng)域下的專有名詞搜索場(chǎng)景下,需要對(duì)一些傳統(tǒng)語義下沒有錯(cuò)誤的詞語進(jìn)行糾錯(cuò)。如在狹窄領(lǐng)域內(nèi),有一個(gè)專有人名盧偉,用戶搜索蘆葦一詞時(shí),雖然蘆葦也是一個(gè)正確的詞語,但在當(dāng)前搜索場(chǎng)景下,仍然需要被糾錯(cuò)。
因此,有必要提供一種針對(duì)狹窄搜索領(lǐng)域內(nèi)的搜索詞糾錯(cuò)對(duì)的獲取方法,可以在無平行語料,無搜索日志的情況下,對(duì)各種專有名詞,轉(zhuǎn)義名詞進(jìn)行糾錯(cuò),并保持糾錯(cuò)對(duì)構(gòu)建的時(shí)效性。
發(fā)明內(nèi)容
鑒于以上內(nèi)容,有必要提出一種搜索詞糾錯(cuò)對(duì)構(gòu)建方法、終端及存儲(chǔ)介質(zhì),能夠從海量數(shù)據(jù)中構(gòu)建出多個(gè)詞語片段糾錯(cuò)對(duì),提高搜索效率。
本發(fā)明的第一方面提供一種搜索詞糾錯(cuò)對(duì)構(gòu)建方法,所述方法包括:
利用新詞發(fā)現(xiàn)算法計(jì)算出文本語料庫中每個(gè)詞語片段的鄰接熵和凝固度并根據(jù)所述鄰接熵和凝固度篩選出多個(gè)候選詞語片段;
基于所述多個(gè)候選詞語片段構(gòu)建中文字形編輯距離樹及構(gòu)建中文拼音編輯距離樹;
獲取用戶歷史搜索的多個(gè)文本數(shù)據(jù),并利用所述新詞發(fā)現(xiàn)算法確定出所述多個(gè)文本數(shù)據(jù)中的多個(gè)用戶詞語片段;
針對(duì)每個(gè)用戶詞語片段,根據(jù)所述中文文字形編輯距離樹及所述中文拼音編輯距離樹查詢出與所述用戶詞語片段對(duì)應(yīng)的目標(biāo)詞語片段,并基于所述用戶詞語片段和所述目標(biāo)詞語片段構(gòu)建多個(gè)詞語片段糾錯(cuò)對(duì);
計(jì)算每一個(gè)用戶詞語片段對(duì)應(yīng)的詞語片段糾錯(cuò)對(duì)的糾錯(cuò)分值;
基于所述多個(gè)詞語片段糾錯(cuò)對(duì)及對(duì)應(yīng)的糾錯(cuò)分值訓(xùn)練第一糾錯(cuò)對(duì)打分模型和第二糾錯(cuò)對(duì)打分模型;
通過所述第一糾錯(cuò)對(duì)打分模型和所述第二糾錯(cuò)對(duì)打分模型從所述多個(gè)詞語片段糾錯(cuò)對(duì)中識(shí)別出多個(gè)目標(biāo)詞語片段糾錯(cuò)對(duì)。
根據(jù)本發(fā)明的一個(gè)可選的實(shí)施例,所述基于所述多個(gè)詞語片段糾錯(cuò)對(duì)及對(duì)應(yīng)的糾錯(cuò)分值訓(xùn)練第一糾錯(cuò)對(duì)打分模型和第二糾錯(cuò)對(duì)打分模型包括:
從所述多個(gè)詞語片段糾錯(cuò)對(duì)中選取出第一預(yù)設(shè)數(shù)量的詞語片段糾錯(cuò)對(duì);
為所述第一預(yù)設(shè)數(shù)量的詞語片段糾錯(cuò)對(duì)設(shè)置標(biāo)識(shí);
將所述第一預(yù)設(shè)數(shù)量的詞語片段糾錯(cuò)對(duì)及對(duì)應(yīng)的標(biāo)識(shí)作為第一訓(xùn)練數(shù)據(jù);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于平安國際智慧城市科技股份有限公司,未經(jīng)平安國際智慧城市科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010617014.3/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 構(gòu)建墊、實(shí)體圖像構(gòu)建物和構(gòu)建構(gòu)建物支撐件的方法
- 支持松耦合的軟件構(gòu)建方法、系統(tǒng)及該系統(tǒng)的實(shí)現(xiàn)方法
- 版本的構(gòu)建系統(tǒng)及方法
- 工程構(gòu)建系統(tǒng)及其構(gòu)建方法
- 實(shí)例構(gòu)建方法、裝置及軟件系統(tǒng)
- 軟件構(gòu)建方法、軟件構(gòu)建裝置和軟件構(gòu)建系統(tǒng)
- 天花板地圖構(gòu)建方法、構(gòu)建裝置以及構(gòu)建程序
- 一種項(xiàng)目構(gòu)建方法、持續(xù)集成系統(tǒng)及終端設(shè)備
- 并行構(gòu)建的方法、裝置及設(shè)備
- 構(gòu)建肺癌預(yù)測(cè)模型構(gòu)建方法
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





