[發明專利]一種相似文章查找方法、裝置、設備及存儲介質有效
| 申請號: | 201710817664.0 | 申請日: | 2017-09-12 |
| 公開(公告)號: | CN107609106B | 公開(公告)日: | 2020-10-30 |
| 發明(設計)人: | 羅歡;權圣 | 申請(專利權)人: | 馬上消費金融股份有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/31 |
| 代理公司: | 北京銀龍知識產權代理有限公司 11243 | 代理人: | 許靜;張博 |
| 地址: | 401121 重慶市渝北區*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 相似 文章 查找 方法 裝置 設備 存儲 介質 | ||
本發明公開了一種相似文章查找方法,該方法包括以下步驟:接收針對目標文章的相似文章的查找請求,通過標題查找方式利用目標文章的標題查找目標文章的相似文章,獲得目標文章的第一相似文章集合,通過內容查找方式利用目標文章的內容查找目標文章的相似文章,獲得目標文章的第二相似文章集合,合并第一相似文章集合與第二相似文章集合,獲得目標文章的相似文章結果。應用本發明實施例所提供的技術方案,通過對目標文章的標題與內容分別采取適當的查找方式,查找目標文章的相似文章,可以提升針對目標文章的相似文章的查找準確率,提高查找速度。本發明還公開了一種相似文章查找裝置、設備及存儲介質,具有相應技術效果。
技術領域
本發明涉及計算機應用技術領域,特別是涉及一種相似文章查找方法、裝置、設備及存儲介質。
背景技術
隨著計算機應用技術的發展,人們將撰寫的文章放到互聯網后的擴散速度也不斷加快。例如,每天有大量的新聞文章產生,人們會通過互聯網對讀取到的新聞文章進行轉發,轉發越多,新聞文章的影響越大。但是,現在人們對新聞文章不僅是簡單的轉發,可能會更改一個標題,以便更好的吸引讀者注意,或者簡單添加一些自己的見解,便于讀者理解。因此,出于各種原因,文章相似不只是簡單的標題或內容的完全匹配,還需要增加一些相似計算方式,來提高相似計算覆蓋率,以便更好的反應文章影響程度。
綜上所述,如何有效地解決相似文章查找問題,是目前本領域技術人員急需解決的技術問題。
發明內容
為解決上述技術問題,本發明提供如下技術方案:
一種相似文章查找方法,包括:
接收針對目標文章的相似文章的查找請求;
通過標題查找方式利用所述目標文章的標題查找所述目標文章的相似文章,獲得所述目標文章的第一相似文章集合;
通過內容查找方式利用所述目標文章的內容查找所述目標文章的相似文章,獲得所述目標文章的第二相似文章集合;
合并所述第一相似文章集合與所述第二相似文章集合,獲得所述目標文章的相似文章結果。
在本發明的一種具體實施方式中,在所述接收針對目標文章的相似文章的查找請求之后、所述通過標題查找方式利用所述目標文章的標題查找所述目標文章的相似文章,獲得所述目標文章的第一相似文章集合之前,還包括:
對所述目標文章的標題進行第一預處理操作,獲得進行所述第一預處理操作后的所述目標文章的標題。
在本發明的一種具體實施方式中,所述通過標題查找方式利用所述目標文章的標題查找所述目標文章的相似文章,獲得所述目標文章的第一相似文章集合,包括:
通過搜索引擎搜索所述目標文章的標題查找所述目標文章的相似文章,獲得所述目標文章的第三相似文章集合;
在所述第三相似文章集合中提取與所述目標文章的標題長度的匹配度大于預設第一閾值的文章,獲得所述目標文章的第一相似文章集合。
在本發明的一種具體實施方式中,在所述接收針對目標文章的相似文章的查找請求之后、所述通過內容查找方式利用所述目標文章的內容查找所述目標文章的相似文章,獲得所述目標文章的第二相似文章集合之前,還包括:
對所述目標文章的內容進行第二預處理操作,獲得進行所述第二預處理操作后的所述目標文章的內容。
在本發明的一種具體實施方式中,所述通過內容查找方式利用所述目標文章的內容查找所述目標文章的相似文章,獲得所述目標文章的第二相似文章集合,包括:
通過哈希算法計算所述目標文章的內容對應的哈希值;
確定所述哈希值的可用子部分;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于馬上消費金融股份有限公司,未經馬上消費金融股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710817664.0/2.html,轉載請聲明來源鉆瓜專利網。





