[發明專利]一種信息歸類方法和系統、設備及存儲介質在審
| 申請號: | 201910762982.0 | 申請日: | 2019-08-19 |
| 公開(公告)號: | CN110580279A | 公開(公告)日: | 2019-12-17 |
| 發明(設計)人: | 劉躍華 | 申請(專利權)人: | 湖南正宇軟件技術開發有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/335;G06F16/9535 |
| 代理公司: | 43207 長沙智德知識產權代理事務所(普通合伙) | 代理人: | 盧鐘廷 |
| 地址: | 410000 湖南省長沙市高新開*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據對象內容 關鍵詞數據庫 中文 主題數據庫 對象內容 提取數據 中文分詞 信息技術領域 存儲介質 計算數據 名稱提取 信息歸類 權重 閱讀 | ||
1.一種信息歸類系統,其特征在于,包括主題數據庫模塊、關鍵詞數據庫模塊、中文分詞模塊和中文名詞打分模塊,其中,主題數據庫模塊,用于將數據對象內容劃分為某一主題;關鍵詞數據庫模塊,用于提取數據對象內容中涉及到的關鍵詞;中文分詞模塊,用于將數據對象內容中的中文名稱提取出來;中文名詞打分模塊,用于計算數據對象內容中每個中文名稱的權重。
2.根據權利要求1所述的一種信息歸類系統,其特征在于,所述主題數據庫模塊,用于將數據對象內容劃分為成一個主題。
3.根據權利要求2所述的一種信息歸類系統,其特征在于,所述主題為青少年兒童保護、娛樂。
4.根據權利要求1所述的一種信息歸類系統,其特征在于,所述關鍵詞數據庫模塊將最新的熱點關鍵詞入庫。
5.根據權利要求1所述的一種信息歸類系統,其特征在于,所述中文分詞模塊:采用中文分詞IKAnalyzer,并搭配收集的數據對象所在領域的中文詞庫,將數據對象內容中的中文名稱提取出來。
6.根據權利要求1所述的一種信息歸類系統,其特征在于,所述中文名詞打分模塊通過TF-IDF權重打分算法,計算數據對象內容中每個詞語的權重,篩選出中文名詞打分模塊中的關鍵詞。
7.一種信息歸類方法,其特征在于,數據對象內容歸類人員選擇待歸類的數據對象內容提交至權利要求1所述的一種信息歸類系統進行分析,系統自動選擇中文分詞模塊對數據對象內容內容進行中文分詞,并利用中文名詞打分模塊對所有中文名詞打分后排名,選擇權重高的詞作為關鍵詞列表,根據關鍵詞列表,與主題數據庫和關鍵詞數據庫,得到該數據對象內容所屬的主題和關鍵詞,通過主題和關鍵詞判斷相關聯的用戶,將數據對象內容推薦給關注的用戶,同時按照主題和關鍵詞劃分后,以Key-Value的形式存儲在數據庫中。
8.根據權利要求7所述的一種信息歸類方法,其特征在于,所述將數據對象內容推薦給關注的用戶,進一步為:將數據對象內容按照匹配的權重排名后推薦給關注的用戶。
9.一種設備,其特征在于,所述設備包括:
一個或多個處理器;
存儲器,用于存儲一個或多個程序,
當所述一個或多個程序被所述一個或多個處理器執行時,使得所述一個或多個處理器執行如權利要求7-8中任一項所述的方法。
10.一種存儲有計算機程序的存儲介質,其特征在于,該程序被處理器執行時實現如權利要求7-8中任一項所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖南正宇軟件技術開發有限公司,未經湖南正宇軟件技術開發有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910762982.0/1.html,轉載請聲明來源鉆瓜專利網。





