[發(fā)明專利]一種信息歸類方法和系統(tǒng)、設(shè)備及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 201910762982.0 | 申請日: | 2019-08-19 |
| 公開(公告)號: | CN110580279A | 公開(公告)日: | 2019-12-17 |
| 發(fā)明(設(shè)計)人: | 劉躍華 | 申請(專利權(quán))人: | 湖南正宇軟件技術(shù)開發(fā)有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/335;G06F16/9535 |
| 代理公司: | 43207 長沙智德知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) | 代理人: | 盧鐘廷 |
| 地址: | 410000 湖南省長沙市高新開*** | 國省代碼: | 湖南;43 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 數(shù)據(jù)對象內(nèi)容 關(guān)鍵詞數(shù)據(jù)庫 中文 主題數(shù)據(jù)庫 對象內(nèi)容 提取數(shù)據(jù) 中文分詞 信息技術(shù)領(lǐng)域 存儲介質(zhì) 計算數(shù)據(jù) 名稱提取 信息歸類 權(quán)重 閱讀 | ||
本發(fā)明公開了一種信息歸類方法和系統(tǒng)、設(shè)備及存儲介質(zhì),屬于信息技術(shù)領(lǐng)域。包括主題數(shù)據(jù)庫模塊、關(guān)鍵詞數(shù)據(jù)庫模塊、中文分詞模塊和中文名詞打分模塊,其中,主題數(shù)據(jù)庫模塊,用于將數(shù)據(jù)對象內(nèi)容劃分為某一主題;關(guān)鍵詞數(shù)據(jù)庫模塊,用于提取數(shù)據(jù)對象內(nèi)容中涉及到的關(guān)鍵詞;中文分詞模塊,用于將數(shù)據(jù)對象內(nèi)容中的中文名稱提取出來;中文名詞打分模塊,用于計算數(shù)據(jù)對象內(nèi)容中每個中文名稱的權(quán)重。可以通過對數(shù)據(jù)對象內(nèi)容的判斷,提取數(shù)據(jù)對象中涉及到的主題、關(guān)鍵詞,通過主題和關(guān)鍵詞推送給不同的用戶,以進(jìn)行后續(xù)的閱讀或處理。
技術(shù)領(lǐng)域
本發(fā)明涉及信息技術(shù)領(lǐng)域,尤其涉及一種信息歸類方法和系統(tǒng)、設(shè)備及存儲介質(zhì)。
背景技術(shù)
互聯(lián)網(wǎng)上的資源雖然非常豐富,獲取信息的方式也多樣化,但是,對于特定領(lǐng)域內(nèi)的信息的獲取,沒有相關(guān)領(lǐng)域知識背景的人卻非常困難,更難以獲取其所需的精準(zhǔn)信息。信息獲取的冗余程度較高。在日常工作生活中,不難發(fā)現(xiàn)同類信息或表述相同的網(wǎng)絡(luò)新聞、資訊等信息在各大互聯(lián)網(wǎng)站反復(fù)的出現(xiàn)。這種大量同類信息的重復(fù)出現(xiàn),導(dǎo)致用戶在獲取所需精準(zhǔn)信息的時間過長,進(jìn)一步影響用戶的體驗心理。在信息化水平快速增長的今天,對精準(zhǔn)信息快速準(zhǔn)確的把握,才能有效充分利用信息的價值,促進(jìn)信息消費。因此,幫助用戶去除網(wǎng)絡(luò)冗余信息,提高信息檢索速度,獲取精準(zhǔn)信息,節(jié)約時間是一個需解決的問題。一些組織部門在篩選不同信息文檔也同樣存在上述問題,信息獲取的冗余程度較高。這一問題亟待解決。另外即便是獲取了相關(guān)領(lǐng)域內(nèi)的信息資源,一般大眾也難以對該信息的有效性、精準(zhǔn)性等進(jìn)行識別,這些都在不同程度上影響了人們獲取信息的深度。
對于推送信息給用戶的服務(wù)器而言,獲取的數(shù)據(jù)雜亂,數(shù)據(jù)信息冗余,占用數(shù)據(jù)庫存儲空間,數(shù)據(jù)對象內(nèi)容深度不夠,無法深度建立與用戶之間的粘性。
發(fā)明內(nèi)容
1.發(fā)明要解決的技術(shù)問題
為了克服上述技術(shù)問題,本發(fā)明提供了一種信息歸類方法和系統(tǒng)、設(shè)備及存儲介質(zhì)。可以通過對數(shù)據(jù)對象內(nèi)容的判斷,提取數(shù)據(jù)對象中涉及到的主題、關(guān)鍵詞,通過主題和關(guān)鍵詞推送給不同的用戶,以進(jìn)行后續(xù)的閱讀或處理。
2.技術(shù)方案
為解決上述問題,本發(fā)明提供的技術(shù)方案為:
第一方面,本發(fā)明提供了一種信息歸類系統(tǒng),包括主題數(shù)據(jù)庫模塊、關(guān)鍵詞數(shù)據(jù)庫模塊、中文分詞模塊和中文名詞打分模塊,其中,主題數(shù)據(jù)庫模塊,用于將數(shù)據(jù)對象內(nèi)容劃分為某一主題;關(guān)鍵詞數(shù)據(jù)庫模塊,用于提取數(shù)據(jù)對象內(nèi)容中涉及到的關(guān)鍵詞;中文分詞模塊,用于將數(shù)據(jù)對象內(nèi)容中的中文名稱提取出來;中文名詞打分模塊,用于計算數(shù)據(jù)對象內(nèi)容中每個中文名稱的權(quán)重。
進(jìn)一步地改進(jìn)為,所述主題數(shù)據(jù)庫模塊,用于將數(shù)據(jù)對象內(nèi)容劃分為成一個主題。
進(jìn)一步地改進(jìn)為,所述主題為青少年兒童保護(hù)、娛樂。
進(jìn)一步地改進(jìn)為,所述關(guān)鍵詞數(shù)據(jù)庫模塊將最新的熱點關(guān)鍵詞入庫。
進(jìn)一步地改進(jìn)為,所述中文分詞模塊:采用中文分詞IKAnalyzer,并搭配收集的數(shù)據(jù)對象所在領(lǐng)域的中文詞庫,將數(shù)據(jù)對象內(nèi)容中的中文名稱提取出來。
進(jìn)一步地改進(jìn)為,所述中文名詞打分模塊通過TF-IDF權(quán)重打分算法,計算數(shù)據(jù)對象內(nèi)容中每個詞語的權(quán)重,篩選出中文名詞打分模塊中的關(guān)鍵詞。
第二方面,本發(fā)明提供了一種信息歸類方法,數(shù)據(jù)對象內(nèi)容歸類人員選擇待歸類的數(shù)據(jù)對象內(nèi)容提交至以上所述的一種信息歸類系統(tǒng)進(jìn)行分析,系統(tǒng)自動選擇中文分詞模塊對數(shù)據(jù)對象內(nèi)容內(nèi)容進(jìn)行中文分詞,并利用中文名詞打分模塊對所有中文名詞打分后排名,選擇權(quán)重高的詞作為關(guān)鍵詞列表,根據(jù)關(guān)鍵詞列表,與主題數(shù)據(jù)庫和關(guān)鍵詞數(shù)據(jù)庫,得到該數(shù)據(jù)對象內(nèi)容所屬的主題和關(guān)鍵詞,通過主題和關(guān)鍵詞判斷相關(guān)聯(lián)的用戶,將數(shù)據(jù)對象內(nèi)容推薦給關(guān)注的用戶,同時按照主題和關(guān)鍵詞劃分后,以Key-Value的形式存儲在數(shù)據(jù)庫中。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于湖南正宇軟件技術(shù)開發(fā)有限公司,未經(jīng)湖南正宇軟件技術(shù)開發(fā)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910762982.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 配置為保持內(nèi)容地址映射的內(nèi)容尋址存儲設(shè)備
- 再現(xiàn)規(guī)則評估裝置、再現(xiàn)規(guī)則評估方法、儲存介質(zhì)、及程序
- 呈現(xiàn)和導(dǎo)航具有不同特性的內(nèi)容
- 一種移動終端得到數(shù)據(jù)對象的方法及移動終端
- 使用自認(rèn)證名稱分發(fā)無名稱對象的系統(tǒng)
- 減少主觀干擾內(nèi)容的方法和系統(tǒng)
- 一種視頻圖形內(nèi)容處理方法、裝置、設(shè)備及介質(zhì)
- 一種應(yīng)用程序?qū)ο蟮膬?nèi)容數(shù)據(jù)獲取方法、裝置、電子設(shè)備及存儲介質(zhì)
- 一種信息獲取方法和系統(tǒng)、設(shè)備及存儲介質(zhì)
- 一種元數(shù)據(jù)更新方法、裝置、設(shè)備及存儲介質(zhì)
- 互聯(lián)網(wǎng)二層數(shù)據(jù)庫關(guān)鍵詞處理技術(shù)
- 以關(guān)鍵詞快速搜尋數(shù)據(jù)的系統(tǒng)及其方法
- 一種確定短信攔截關(guān)鍵詞的方法
- 基于同義詞擴(kuò)展的關(guān)系數(shù)據(jù)庫關(guān)鍵詞搜索方法
- 一種網(wǎng)絡(luò)輿論趨勢預(yù)測分析方法
- APP基于關(guān)鍵詞自動劃分類別的方法
- 信息處理系統(tǒng)、信息處理裝置、記錄介質(zhì)以及詞典數(shù)據(jù)庫的更新方法
- 一種語音識別轉(zhuǎn)化方法及系統(tǒng)
- 基于微信平臺的景區(qū)售票系統(tǒng)
- 一種語音識別轉(zhuǎn)化方法及系統(tǒng)
- 一種數(shù)字資源發(fā)布方法及裝置
- 一種文化創(chuàng)意產(chǎn)業(yè)園的公共網(wǎng)絡(luò)服務(wù)系統(tǒng)
- 基于MeSH表的電子病歷檔案的智能檢索系統(tǒng)
- 一種基于特定劃分的主題模型下的文檔生成方法
- 一種基于圖數(shù)據(jù)庫的知識森林構(gòu)建方法
- 一種基于話題模型的社會化視頻主題提取系統(tǒng)的提取方法
- 大數(shù)據(jù)采集方法、裝置、計算機設(shè)備及存儲介質(zhì)
- 一種熱點主題挖掘方法和系統(tǒng)
- 數(shù)據(jù)挖掘方法及電子設(shè)備
- 基于人工智能的教育學(xué)習(xí)系統(tǒng)數(shù)據(jù)庫建立管理方法及數(shù)據(jù)庫云平臺





