[發明專利]對文本內容進行篩選的方法及裝置有效
| 申請號: | 201410053002.7 | 申請日: | 2014-02-17 |
| 公開(公告)號: | CN104850537B | 公開(公告)日: | 2017-12-15 |
| 發明(設計)人: | 張紅林 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 北京德琦知識產權代理有限公司11018 | 代理人: | 周華霞,王麗琴 |
| 地址: | 518044 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 內容 進行 篩選 方法 裝置 | ||
1.一種對文本內容進行篩選的方法,其特征在于,該方法包括:
獲取來自不同數據源的至少兩個候選文本內容,對每個候選文本內容進行分詞,選取權重最高的設定個數的單詞,構成一個文本特征向量,表示為第一文本特征向量;
獲取與候選文本內容關聯的標準文本內容,對標準文本內容進行分詞,選取權重最高的設定個數的單詞,構成一個文本特征向量,表示為第二文本特征向量;
計算第一文本特征向量與第二文本特征向量之間的距離,判斷計算得到的距離值是否大于距離設定值,如果是,則保留相應的候選文本內容,作為推薦源,否則剔除相應的候選文本內容,作為候選源;
對推薦源中的文本內容進行相似性分類,得到一個或兩個分類;如果為兩個分類,則分別計算兩個分類包含的候選文本內容數量,表示為第一數量和第二數量,確定第一數量和第二數量之差大于數目設定值,從推薦源中剔除包含候選文本內容數量少的分類,將剔除的候選文本內容添加到候選源中。
2.如權利要求1所述的方法,其特征在于,所述將剔除的候選文本內容添加到候選源中之后,該方法還包括:
確定第一設定維度,根據維度評分算法計算推薦源中各候選文本內容針對第一設定維度的評分值;
從推薦源中剔除評分值小于設定評分值的候選文本內容,將剔除的候選文本內容添加到候選源中。
3.如權利要求2所述的方法,其特征在于,所述從推薦源中剔除評分值小于設定評分值的候選文本內容,將剔除的候選文本內容添加到候選源中之后,該方法還包括:
確定第二設定維度;
針對第二設定維度,選取推薦源中最優的候選文本內容,將推薦源中的其他候選文本內容添加到候選源中。
4.如權利要求3所述的方法,其特征在于,所述對每個候選文本內容數據進行分詞包括:采用TF-IDF算法,對每個候選文本內容數據進行分詞;
所述計算第一文本特征向量與第二文本特征向量之間的距離包括采用余弦相似公 式,計算第一文本特征向量與第二文本特征向量之間的距離;
所述對推薦源中的文本內容進行相似性分類包括:采用K-means聚類運算算法,對推薦源中的文本內容進行相似性分類;
所述維度評分算法包括樸素貝葉斯評分算法或決策樹算法。
5.如權利要求4所述的方法,其特征在于,所述將推薦源中的其他候選文本內容添加到候選源中之后,該方法還包括:
接收來自瀏覽器的關于指定文本標識的讀取請求,獲取與指定文本標識對應的推薦源和候選源;
將推薦源中的最優文本內容包含在頁面中反饋給瀏覽器,頁面中還包含除最優文本內容以外的其他文本內容的鏈接地址。
6.一種對文本內容進行篩選的裝置,其特征在于,該裝置包括候選文本處理單元、標準文本處理單元和相似運算單元;
所述候選文本處理單元,獲取來自不同數據源的至少兩個候選文本內容,對每個候選文本內容進行分詞,選取權重最高的設定個數的單詞,構成一個文本特征向量,表示為第一文本特征向量,發送給所述相似運算單元;
所述標準文本處理單元,獲取與候選文本內容關聯的標準文本內容,對標準文本內容進行分詞,選取權重最高的設定個數的單詞,構成一個文本特征向量,表示為第二文本特征向量,發送給所述相似運算單元;
所述相似運算單元,計算第一文本特征向量與第二文本特征向量之間的距離,判斷計算得到的距離值是否大于距離設定值,如果是,則保留相應的候選文本內容,作為推薦源,否則剔除相應的候選文本內容,作為候選源;
該裝置還包括分類運算單元,所述相似運算單元將剔除的候選文本內容作為候選源之后,向所述分類運算單元發送啟動指令;
所述分類運算單元,接收啟動指令,對推薦源中的文本內容進行相似性分類,得到一個或兩個分類;如果為兩個分類,則分別計算兩個分類包含的候選文本內容數量,表示為第一數量和第二數量,確定第一數量和第二數量之差大于數目設定值,從推薦源中剔除包含候選文本內容數量少的分類,將剔除的候選文本內容添加到候選源中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410053002.7/1.html,轉載請聲明來源鉆瓜專利網。
- 內容再現系統、內容提供方法、內容再現裝置、內容提供裝置、內容再現程序和內容提供程序
- 內容記錄系統、內容記錄方法、內容記錄設備和內容接收設備
- 內容服務系統、內容服務器、內容終端及內容服務方法
- 內容分發系統、內容分發裝置、內容再生終端及內容分發方法
- 內容發布、內容獲取的方法、內容發布裝置及內容傳播系統
- 內容提供裝置、內容提供方法、內容再現裝置、內容再現方法
- 內容傳輸設備、內容傳輸方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容發送設備、內容發送方法、內容再現設備、內容再現方法、程序及內容分發系統
- 內容再現裝置、內容再現方法、內容再現程序及內容提供系統
- 內容記錄裝置、內容編輯裝置、內容再生裝置、內容記錄方法、內容編輯方法、以及內容再生方法





