[發明專利]一種信息自動搜索歸類再發布方法及系統有效
| 申請號: | 201710643338.2 | 申請日: | 2017-07-31 |
| 公開(公告)號: | CN107391723B | 公開(公告)日: | 2020-05-22 |
| 發明(設計)人: | 戴智偉 | 申請(專利權)人: | 戴智偉 |
| 主分類號: | G06F16/906 | 分類號: | G06F16/906;G06F16/9535;G06F16/958 |
| 代理公司: | 北京細軟智谷知識產權代理有限責任公司 11471 | 代理人: | 付登云 |
| 地址: | 332000 江西省九*** | 國省代碼: | 江西;36 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 信息 自動 搜索 歸類 再發 方法 系統 | ||
1.一種信息自動搜索歸類再發布方法,其特征在于,包括:
步驟S1、信息監測線程監測到用戶添加新信息后,啟動信息搜索收集線程獲取用戶添加的新信息;
步驟S2、存儲器存儲信息搜索收集線程獲取的新信息;
步驟S3、分析器分析存儲器中存儲的新信息類別;
步驟S4、推送器按所述新信息類別向相應的信息頁面推送發布新信息;
步驟S5、信息互通線程建立原點信息和轉發信息之間的關系鏈接;其中,所述原點信息包括所述推送器推送發布的新信息;
步驟S6、信息互通線程檢測到用戶刪除原點信息后,刪除已轉發信息及所述原點信息和轉發信息之間的關系鏈接;
其中,所述步驟S4中的信息頁面包括互聯網上已建立的各類網站信息頁面和用戶當前所在的原點信息頁面,其中,用戶當前所在的原點信息頁面上的信息為原點信息,用戶轉發的原點信息為轉發信息;
其中,所述新信息包括用戶外部最新發布以及系統內部最新發布的各種信息。
2.根據權利要求1所述的信息自動搜索歸類再發布方法,其特征在于,所述步驟S1中,所述信息搜索收集線程獲取用戶添加的新信息具體包括:
爬蟲程序獲取與預設信息類別相關的新信息,并對所述新信息進行分詞處理,獲得包含若干詞和/或詞組的分詞處理結果信息;
分別基于語義庫中同一語義屬性參數對所述詞和/或詞組進行加權運算,得到所述新信息的語義屬性參數;
若所述新信息的語義屬性參數在預設的信息類別參數范圍內,則將所述新信息保存至抓取結果隊列。
3.根據權利要求2所述的信息自動搜索歸類再發布方法,其特征在于,所述分別基于語義庫中同一語義屬性參數對所述詞和/或詞組進行加權運算,得到所述新信息的語義屬性參數之前還包括:
對所述詞和/或詞組進行聚類操作,根據所述語義庫數據獲取所述詞和/或詞組的所述語義屬性參數。
4.根據權利要求1所述的信息自動搜索歸類再發布方法,其特征在于,所述步驟S3具體包括:
步驟S31、將待處理的新信息收集并存儲到分布式文件系統HDFS文件系統中;
步驟S32、利用硬聚類K-Means算法對存儲到所述HDFS文件系統中的所述新信息進行聚類,并獲得一個或者多個聚類數據群;將獲得的每一個所述聚類數據群分別作為一類熱點信息。
5.根據權利要求4所述的信息自動搜索歸類再發布方法,其特征在于,所述步驟S32中,利用硬聚類K-Means算法對存儲到所述HDFS文件系統中的所述新信息進行聚類,具體包括:
步驟S321、從存儲到所述HDFS文件系統中的全部新信息中任意選擇k個信息,并對所述k 個信息的當前位置作為初始聚類中心;其中,k為整數,是預先給定的聚類數;
步驟S322、計算全部新信息中的每一個未被選擇的新信息與k個所述初始聚類中心的距離;
步驟S323、獲得所述每一個未被選擇的新信息與全部k個所述初始聚類中心計算出的全部所述距離中的最小距離;
步驟S324、將所述未被選擇的新信息分配給與該最小距離相對應的所述初始聚類中心;
步驟S325、根據每個所述初始聚類中心所分配到的全部所述未被選擇的新信息的分布情況,擬合出每一個所述初始聚類中心所分配到的全部未被選擇的新信息的均值中心位置,并將所述均值中心位置作為聚類中心;
步驟S326、判斷所述初始聚類中心與所述聚類中心的位置是否相同,如果所述初始聚類中心與所述聚類中心的位置不相同,則進入步驟S327;如果所述初始聚類中心與所述聚類中心的位置相同,則所述聚類結束;
步驟S327、將k個所述初始聚類中心處的新信息分別遷移到與每個所述初始聚類中心相對應的所述聚類中心,并返回步驟S322。
6.根據權利要求5所述的信息自動搜索歸類再發布方法,其特征在于,所述聚類中心處的新信息與被分配給所述聚類中心的所述未被選擇的新信息共同組成數據群。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于戴智偉,未經戴智偉許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710643338.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于分布式機房監控的內數據庫體系系統
- 下一篇:一種大數據的篩選方法
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





