[發明專利]一種搜索文本折疊處理系統及其方法在審
| 申請號: | 202011465449.7 | 申請日: | 2020-12-14 |
| 公開(公告)號: | CN112464639A | 公開(公告)日: | 2021-03-09 |
| 發明(設計)人: | 張校源 | 申請(專利權)人: | 上海愛數信息技術股份有限公司 |
| 主分類號: | G06F40/194 | 分類號: | G06F40/194;G06F40/279;G06F16/953;G06F16/9538;G06K9/00;G06K9/62 |
| 代理公司: | 上海科盛知識產權代理有限公司 31225 | 代理人: | 林君如 |
| 地址: | 201112 上海市閔行*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 搜索 文本 折疊 處理 系統 及其 方法 | ||
本發明涉及一種搜索文本折疊處理系統及其方法,該系統包括指紋創建模塊、數據庫和折疊模塊,指紋創建模塊與本地存儲端連接,用于創建對應于本地存儲端各文本的文檔指紋;指紋創建模塊與數據庫連接,以將文檔指紋及對應的文本存儲于數據庫中;折疊模塊的輸入端和輸出端分別與數據庫、搜索引擎端連接,數據庫與搜索引擎端連接,數據庫根據搜索引擎端的搜索指令,輸出搜索文本及對應的文檔指紋,折疊模塊根據文檔指紋,對搜索文本進行折疊處理,得到折疊文本數據,并將折疊文本數據傳輸給搜索引擎端,以展示于搜索頁面上。與現有技術相比,本發明能夠將相同或相似度高的搜索文本進行折疊處理,方便用戶在同一頁面上盡可能多地查看到不同的搜索文本。
技術領域
本發明涉及文本分析技術領域,尤其是涉及一種搜索文本折疊處理系統及其方法。
背景技術
目前用戶從本地的搜索引擎端中獲取搜索文本時,往往會存在很多相同或相似度較高的重復文本,使得用戶不能全面快速獲得所有搜索文本,必須進行多次頁面下拉或翻頁操作,才能查看到搜索的不同文本。
為此,現有技術通過對不同搜索文本進行相似度計算,以方便用戶提前得知搜索文本之間是否存在相同或相似度較高的重復文本,目前大多采用編輯距離的計算、杰卡德系數計算、TF計算、word2vec等方法進行相似度計算,其中,編輯距離計算是指兩個字符串之間有一個字符串轉成另一個字符串所需要的最少編輯操作次數,編輯距離越大說明越是不同,編輯操作包括增加、替換、刪除;杰卡德系數是指兩個文本的交集除以并集得到的數值,數值越大說明越相似;TF或TF-IDF值是指對文本進行向量化,然后計算兩個文本的余弦值,值越大說明兩個文本越相似;word2vec則是指通過訓練好的模型,將每個詞轉換成向量,再計算余弦值,值越大說明越相似。以上的方法只適用于少量的短文本相似度判斷計算,當面對海量的長文本相似度判斷計算時,上述方法的效率均較為低下。此外,盡管通過相似度計算能夠使用戶得知搜索文本之間是否相同或相似,但仍然需要用戶進行多次頁面下拉或翻頁操作,才能進一步查看到更多的搜索文本。
發明內容
本發明的目的就是為了克服上述現有技術存在的缺陷而提供一種搜索文本折疊處理系統及其方法,能夠將相同或相似度高的搜索文本進行折疊處理,從而方便用戶在同一頁面上盡可能多地查看到不同的搜索文本。
本發明的目的可以通過以下技術方案來實現:一種搜索文本折疊處理系統,包括指紋創建模塊、數據庫和折疊模塊,所述指紋創建模塊的輸入端連接至本地存儲端,用于創建對應于本地存儲端各文本的文檔指紋;
所述指紋創建模塊的輸出端與數據庫連接,以將文檔指紋及對應的文本存儲于數據庫中;
所述折疊模塊的輸入端與數據庫連接,所述數據庫與搜索引擎端連接,所述數據庫根據搜索引擎端的搜索指令,輸出相應的搜索文本及對應的文檔指紋給折疊模塊;
所述折疊模塊的輸出端與搜索引擎端連接,所述折疊模塊用于根據文檔指紋,對搜索文本進行折疊處理,得到折疊文本數據,并將折疊文本數據傳輸給搜索引擎端,以展示于搜索頁面上。
進一步地,所述折疊模塊包括依次連接的相似度計算單元以及折疊排序單元,所述相似度計算單元與數據庫連接,用于根據文檔指紋,計算得到搜索文本之間的相似度,以構建出相似度矩陣;
所述折疊排序單元與搜索引擎端連接,用于結合相似度矩陣以及預設的折疊閾值,按照搜索文本的傳入順序,將滿足折疊條件的搜索文本進行折疊,得到折疊文本數據,并將折疊文本數據傳輸給搜索引擎端進行展示。
一種搜索文本折疊處理方法,包括以下步驟:
S1、指紋創建模塊從本地存儲端獲取所有已存儲文本,分別對各文本依次進行分詞、哈希計算、加權、合并、降維以及位移計算處理,得到對應于各文本的文檔指紋;
S2、指紋創建模塊將文檔指紋及對應的文本存儲于數據庫中;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海愛數信息技術股份有限公司,未經上海愛數信息技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011465449.7/2.html,轉載請聲明來源鉆瓜專利網。





