[發(fā)明專利]基于近似詞的檢索方法、裝置、設備及可讀存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 201910190937.2 | 申請日: | 2019-03-13 |
| 公開(公告)號: | CN110069599A | 公開(公告)日: | 2019-07-30 |
| 發(fā)明(設計)人: | 王海君;王昊;陳世喆;張珣;韋柏松;徐偉;莊怡 | 申請(專利權)人: | 平安城市建設科技(深圳)有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/953;G06F17/27 |
| 代理公司: | 深圳市世紀恒程知識產(chǎn)權代理事務所 44287 | 代理人: | 胡海國 |
| 地址: | 518000 廣東省深圳市前海深港合作區(qū)前*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 詞組 近似詞 檢索 檢索詞 可讀存儲介質(zhì) 分詞 語料 搜索 文本 人工智能 分詞處理 搜索效率 預設算法 相似詞 匹配 存儲 覆蓋 | ||
本發(fā)明公開一種基于近似詞的檢索方法、裝置、設備及可讀存儲介質(zhì),所述方法包括:爬取多個文本語料,并對各所述文本語料進行分詞處理,生成多個分詞;根據(jù)各所述分詞確定多個常用詞,基于預設算法計算與各所述常用詞對應的近似詞,并將各所述常用詞及對應近似詞建立常用詞組,形成詞典存儲;當接收到檢索詞時,將所述檢索詞和所述詞典中的各所述常用詞組對比,確定目標常用詞組,并以所述目標常用詞組進行檢索。本方案基于人工智能確定與各常用詞具有相似性的相似詞,在搜索時以和檢索詞對應的目標常用詞組中的常用詞和近似詞進行擴展檢索,使得檢索所匹配的結果更為廣泛,且更容易覆蓋用戶的搜索意圖;提高了搜索效率以及準確性。
技術領域
本發(fā)明主要涉及人工智能技術領域,具體地說,涉及一種基于近似詞的檢索方法、裝置、設備及可讀存儲介質(zhì)。
背景技術
隨著網(wǎng)絡技術的發(fā)展,大眾通過網(wǎng)絡進行搜索的場景越來越多,且在搜索過程中需要用到關鍵詞提取技術以進行文本匹配。目前市面上的搜索工具通常依賴用戶輸入的內(nèi)容,對文本的關鍵詞進行完全匹配檢索,或者進行模糊匹配檢索;其中模糊匹配檢索只是放寬了關鍵詞的位置要求,檢索的結果依賴于用戶輸入內(nèi)容的準確性,用戶通常都需要搜索多次,才能得到自己想要的結果,搜索效率低。
發(fā)明內(nèi)容
本發(fā)明的主要目的是提供一種基于近似詞的檢索方法、裝置、設備及可讀存儲介質(zhì),旨在解決現(xiàn)有技術中搜索時僅依賴于輸入內(nèi)容進行匹配檢索,在輸入內(nèi)容不準確時,容易導致檢索結果不準確,且對搜索內(nèi)容的調(diào)整,使得搜索效率低的問題。
為實現(xiàn)上述目的,本發(fā)明提供一種基于近似詞的檢索方法,所述基于近似詞的檢索方法包括以下步驟:
爬取多個文本語料,并對各所述文本語料進行分詞處理,生成多個分詞;
根據(jù)各所述分詞確定多個常用詞,基于預設算法計算與各所述常用詞對應的近似詞,并將各所述常用詞及對應近似詞建立常用詞組,形成詞典存儲;
當接收到檢索詞時,將所述檢索詞和所述詞典中的各所述常用詞組對比,確定目標常用詞組,并以所述目標常用詞組進行檢索。
優(yōu)選地,所述基于預設算法計算與各所述常用詞對應的近似詞的步驟包括:
根據(jù)預設的詞語與數(shù)字值之間的對應關系,確定各所述常用詞的數(shù)字值,并逐個讀取所述常用詞,將當前讀取的所述常用詞作為目標常用詞;
針對每個所述目標常用詞執(zhí)行以下步驟:
對所述目標常用詞的數(shù)字值與各所述常用詞中除所述目標常用詞之外的其他常用詞的數(shù)字值,基于所述預設算法進行距離計算,生成所述目標常用詞與各所述其他常用詞之間的相似距離;
對各所述相似距離進行排序,確定排列在前預設位的目標相似距離,并將生成各所述目標相似距離的其他常用詞確定為與所述目標常用詞對應的近似詞。
優(yōu)選地,所述基于所述預設算法進行距離計算,生成所述目標常用詞與各所述其他常用詞之間的相似距離的步驟包括:
調(diào)用所述預設算法中的預設公式,將所述目標常用詞的數(shù)字值和各所述其他常用詞的數(shù)字值分別傳輸?shù)剿鲱A設公式中,并根據(jù)所述預設公式,生成所述目標常用詞與各所述其他常用詞之間的相似距離;
其中,所述預設公式為:Yi表示各所述相似距離,A表示所述目標常用詞的數(shù)字值,xi表示各所述其他常用詞的數(shù)字值,ki表示所述目標常用詞與各所述其他常用詞之間的頻次系數(shù)。
優(yōu)選地,所述將所述目標常用詞的數(shù)字值和各所述其他常用詞的數(shù)字值分別傳輸?shù)剿鲱A設公式中的步驟包括:
讀取所述目標常用詞在各所述文本語料中出現(xiàn)的第一頻次,以及各所述其他常用詞在各所述文本語料中出現(xiàn)的第二頻次,并生成所述第一頻次和各所述第二頻次之間的頻次差值;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安城市建設科技(深圳)有限公司,未經(jīng)平安城市建設科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910190937.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





