[發明專利]一種文件關聯方法及系統有效
| 申請號: | 201610832684.0 | 申請日: | 2016-09-19 |
| 公開(公告)號: | CN107844493B | 公開(公告)日: | 2020-12-29 |
| 發明(設計)人: | 米維聰;席強輝;徐超 | 申請(專利權)人: | 博彥泓智科技(上海)有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F40/30 |
| 代理公司: | 上海光華專利事務所(普通合伙) 31219 | 代理人: | 徐秋平 |
| 地址: | 200335 上海市長寧區金*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文件 關聯 方法 系統 | ||
本發明提供一種文件關聯方法及系統,該方法包括:接收一原文件;提取原文件的標題,將標題相似度達到標題相似度閾值的各標題存儲條目所對應的文件作為原文件的標題近似文件;提取原文件的大綱,將大綱綜合相似度達到大綱相似度閾值的各文件大綱所對應的文件作為原文件的大綱近似文件;提取原文件的正文,將正文綜合相似度達到正文相似度閾值的各文件正文所對應的文件作為原文件的正文近似文件;將標題近似文件、大綱近似文件、或/和正文近似文件的標題相似度、大綱綜合相似度和正文綜合相似度根據預設權值進行加權處理,獲得各近似文件的綜合近似度。本發明運算復雜度低,節約了比對時間和成本;對比運算邏輯緊密,提高了對比結果的準確度。
技術領域
本發明屬于數據分析技術領域,涉及一種文件搜索方法,特別是涉及一種文件關聯方法及系統。
背景技術
隨著互聯網信息量的持續指數增長,如何在海量信息中準確、高效地找到用戶所需要的數據,是信息工作者面臨的一個巨大挑戰。現有的搜索引擎根據一定的策略、運用特定的計算機程序從互聯網上搜集信息,在對信息進行組織處理后,為用戶提供檢索服務,將用戶檢索的相關信息展示給用戶的系統。
當前的檢索方式大多還停留在關鍵詞檢索的層面上,由于同一個詞在不同語句和不同的文章環境中會有不同的含義,這無疑給信息檢索系統的理解查詢帶來了難題。因此,一些基于語義層面的檢索方式應運而生。信息檢索逐漸向智能化發展。
然而,即使結合了語義檢索,現有的檢索系統的檢索功能仍存在很大的局限性。例如:如百度、soogle等網頁搜索引擎,其最多也僅是依據輸入的關鍵詞去爬取相關網頁場景上的文字近似內容,有時爬取到的結果與用戶想找的內容還是南轅北轍的。可見,網頁搜索引擎展現給用戶的檢索結果很多時候并不準確。
若想結合語義分析,提高檢索的準確度,勢必增加檢索算法的復雜度、檢索時間以及檢索系統的運維成本。當用戶想檢索的信息需要用幾分鐘,甚至幾小時才能獲得的情況下,不論檢索結果的準確度有多高,用戶也很難有時間或耐心等待結果展示。
那么,如何既能保證檢索的較高準確度,又能將檢索時間壓縮在用戶可接受范圍內,還要保證檢索系統的低運維成本,無疑是目前的一大挑戰。
發明內容
鑒于以上所述現有技術的缺點,本發明的目的在于提供一種文件關聯方法及系統,用于解決現有技術中檢索準確度與檢索時間及檢索資源三者無法同時提高的問題。
為實現上述目的及其他相關目的,本發明提供一種文件關聯方法,所述文件關聯方法包括:接收一原文件;提取所述原文件的標題,將所述原文件的標題與文件存儲空間中保存的各文件標題進行對比,獲取與所述原文件的標題相似度達到標題相似度閾值的標題存儲條目,并將標題相似度達到標題相似度閾值的各標題存儲條目所對應的文件作為所述原文件的標題近似文件;提取所述原文件的大綱,將所述原文件的大綱與文件存儲空間中保存的各文件大綱進行對比,獲取與所述原文件的大綱綜合相似度達到大綱相似度閾值的文件大綱,并將大綱綜合相似度達到大綱相似度閾值的各文件大綱所對應的文件作為所述原文件的大綱近似文件;提取所述原文件的正文,將所述原文件的正文與文件存儲空間中保存的各文件正文進行對比,獲取與所述原文件的正文綜合相似度達到正文相似度閾值的文件正文,并將正文綜合相似度達到正文相似度閾值的各文件正文所對應的文件作為所述原文件的正文近似文件;將所述標題近似文件、大綱近似文件、或/和正文近似文件的標題相似度、大綱綜合相似度和正文綜合相似度根據預設權值進行加權處理,獲得各近似文件的綜合近似度,根據所述綜合近似度對各近似文件進行排序。
于本發明的一實施例中,所述標題相似度的一種獲取過程包括:比較兩個文件標題的語義相似度是否達到第一預設門限;若達到第一預設門限,則判定兩個文件標題相近,并記錄兩個文件標題的相似度值作為對應文件的標題相似度;若未達到預設門限,則判定兩個文件標題不相近。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于博彥泓智科技(上海)有限公司,未經博彥泓智科技(上海)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610832684.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:制備二氟代醇化合物的方法
- 下一篇:一種區域人流量預測方法及系統





