[發明專利]基于近似詞的檢索方法、裝置、設備及可讀存儲介質在審
| 申請號: | 201910190937.2 | 申請日: | 2019-03-13 |
| 公開(公告)號: | CN110069599A | 公開(公告)日: | 2019-07-30 |
| 發明(設計)人: | 王海君;王昊;陳世喆;張珣;韋柏松;徐偉;莊怡 | 申請(專利權)人: | 平安城市建設科技(深圳)有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/953;G06F17/27 |
| 代理公司: | 深圳市世紀恒程知識產權代理事務所 44287 | 代理人: | 胡海國 |
| 地址: | 518000 廣東省深圳市前海深港合作區前*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 詞組 近似詞 檢索 檢索詞 可讀存儲介質 分詞 語料 搜索 文本 人工智能 分詞處理 搜索效率 預設算法 相似詞 匹配 存儲 覆蓋 | ||
1.一種基于近似詞的檢索方法,其特征在于,所述基于近似詞的檢索方法包括以下步驟:
爬取多個文本語料,并對各所述文本語料進行分詞處理,生成多個分詞;
根據各所述分詞確定多個常用詞,基于預設算法計算與各所述常用詞對應的近似詞,并將各所述常用詞及對應近似詞建立常用詞組,形成詞典存儲;
當接收到檢索詞時,將所述檢索詞和所述詞典中的各所述常用詞組對比,確定目標常用詞組,并以所述目標常用詞組進行檢索。
2.如權利要求1所述的基于近似詞的檢索方法,其特征在于,所述基于預設算法計算與各所述常用詞對應的近似詞的步驟包括:
根據預設的詞語與數字值之間的對應關系,確定各所述常用詞的數字值,并逐個讀取所述常用詞,將當前讀取的所述常用詞作為目標常用詞;
針對每個所述目標常用詞執行以下步驟:
對所述目標常用詞的數字值與各所述常用詞中除所述目標常用詞之外的其他常用詞的數字值,基于所述預設算法進行距離計算,生成所述目標常用詞與各所述其他常用詞之間的相似距離;
對各所述相似距離進行排序,確定排列在前預設位的目標相似距離,并將生成各所述目標相似距離的其他常用詞確定為與所述目標常用詞對應的近似詞。
3.如權利要求2所述的基于近似詞的檢索方法,其特征在于,所述基于所述預設算法進行距離計算,生成所述目標常用詞與各所述其他常用詞之間的相似距離的步驟包括:
調用所述預設算法中的預設公式,將所述目標常用詞的數字值和各所述其他常用詞的數字值分別傳輸到所述預設公式中,并根據所述預設公式,生成所述目標常用詞與各所述其他常用詞之間的相似距離;
其中,所述預設公式為:Yi=ki*(∑(A⊕xi)),Yi表示各所述相似距離,A表示所述目標常用詞的數字值,xi表示各所述其他常用詞的數字值,ki表示所述目標常用詞與各所述其他常用詞之間的頻次系數。
4.如權利要求3所述的基于近似詞的檢索方法,其特征在于,所述將所述目標常用詞的數字值和各所述其他常用詞的數字值分別傳輸到所述預設公式中的步驟包括:
讀取所述目標常用詞在各所述文本語料中出現的第一頻次,以及各所述其他常用詞在各所述文本語料中出現的第二頻次,并生成所述第一頻次和各所述第二頻次之間的頻次差值;
根據預設的差值與系數之間的映射關系,確定與各所述頻次差值對應的系數,并根據各所述頻次差值所來源的其他常用詞,將與各所述頻次差值對應的系數確定為與各所述其他常用詞對應的頻次系數;
將所述目標常用詞的數字值、各所述其他常用詞的數字值,以及與各所述其他常用詞對應的頻次系數分別傳輸到所述預設公式中。
5.如權利要求1-4任一項所述的基于近似詞的檢索方法,其特征在于,所述將所述檢索詞和所述詞典中的各所述常用詞組對比,確定目標常用詞組的步驟包括:
將所述檢索詞和所述詞典中的各所述常用詞組對比,判斷各所述常用詞組中是否存在任意所述常用詞組中具有所述檢索詞;
若存在任意所述常用詞組中具有所述檢索詞,則將具有所述檢索詞的常用詞組確定為目標常用詞組。
6.如權利要求5所述的基于近似詞的檢索方法,其特征在于,所述判斷各所述常用詞組中是否存在任意所述常用詞組中具有所述檢索詞的步驟之后包括:
若各所述常用詞組中均不具有所述檢索詞,則對各所述檢索詞進行分詞處理,生成各個檢索分詞;
將所述詞典中各所述常用詞組形成詞序列,將各所述檢索分詞分別和所述詞序列對比,生成句子向量;
根據所述所述句子向量,確定目標語句,并將所述目標語句設為目標常用詞組。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安城市建設科技(深圳)有限公司,未經平安城市建設科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910190937.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種智能調解方法及系統
- 下一篇:對話方法及裝置、計算機可讀存儲介質





