[發(fā)明專利]一種對論壇中有用帖子信息進行分類并整理的方法無效
| 申請?zhí)枺?/td> | 200710163936.6 | 申請日: | 2007-10-12 |
| 公開(公告)號: | CN101178721A | 公開(公告)日: | 2008-05-14 |
| 發(fā)明(設(shè)計)人: | 薛永剛;呂學強;都云程;林春雨;施水才 | 申請(專利權(quán))人: | 北京拓爾思信息技術(shù)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 10010*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 論壇 有用 帖子 信息 進行 分類 整理 方法 | ||
1.一種對論壇中有用帖子信息進行分類并整理的方法,其特征在于,該方法包括以下步驟:
1)從指定的論壇中獲得所有的帖子信息。
2)把收集來的信息同規(guī)則模板庫進行匹配,將大部分無用信息過濾掉。
3)對過濾后的信息進行自動分類,確定其所屬類別,并給出該信息的n個候選類別(n≥1)。
4)根據(jù)自動分類確定的類別及候選類別信息,計算得到帖子信息屬于每個候選類別的置信度,按置信度大小進行排序。將排序后的信息按照前x%和后(100-x)%分成兩部分(其中,x∈[0,100]),分別進行標記。
5)對排序標記后的數(shù)據(jù),由人工先對前x%數(shù)據(jù)進行挑選,確定其類別,若從中挑選的數(shù)據(jù)達到數(shù)量要求則不用進行后(100-x)%數(shù)據(jù)的處理;若數(shù)量未達到要求,則繼續(xù)對后(100-x)%進行處理。
6)最后將由人工處理后的數(shù)據(jù)進行發(fā)布。
2.根據(jù)權(quán)利要求1所述獲取論壇中帖子信息的方法,其特征是:根據(jù)指定的論壇,獲得該論壇下的所有帖子信息,并將所采集來的信息進行保存。
3.根據(jù)權(quán)利要求2所述的信息保存單元,用于保存帖子標題信息、內(nèi)容信息、網(wǎng)頁地址等相關(guān)信息。
4.根據(jù)權(quán)利要求1所述的利用規(guī)則模板過濾的方法,其特征在于,該方法對信息進行過濾的步驟包括:
1)讀取保存在數(shù)據(jù)庫中的原始帖子信息。
2)將模板庫中的模板與讀取的信息進行匹配。
3)如該信息匹配上某一模板,則該信息屬于此類別,對該信息進行保留,并傳遞給下一處理步驟。
4)若沒有匹配上任何模板,則該信息屬于無用信息,不予保留。
5.根據(jù)權(quán)利要求1所述的自動分類方法,其特征是:可利用機器學習方法、規(guī)則方法或者機器學習與規(guī)則方法相結(jié)合的自動分類模型,根據(jù)指定論壇的訓練語料進行訓練或制定相應規(guī)則,給出帖子信息的n個候選類別。
6.根據(jù)權(quán)利要求1所述的排序方法,其特征是,所述系統(tǒng)進一步包括:置信度計算單元,用于計算帖子信息屬于某一類別的置信度。根據(jù)自動分類的結(jié)果,計算這條信息分到n個候選類別的概率,即計算出到每個類別的距離均值和均方差,代入特定的公式得到該帖子屬于每個類別的置信度。
排序單元,用于處理計算得到置信度后的信息,將這些信息按照置信度的大小進行排序。
標記單元,用于將排序后的數(shù)據(jù)按照x%和(100-x)%分為兩部分,并對前x%的數(shù)據(jù)和后(100-x)%的數(shù)據(jù)標以不同的標記,使系統(tǒng)可以自動進行區(qū)分。
7.根據(jù)權(quán)利要求1所述的人工挑選方法,其特征在于:由情報人員使用專門的挑選工具,對已擁有候選類別信息和排序信息的帖子進行人工確認其類別。經(jīng)過權(quán)利要求4、權(quán)利要求5和權(quán)利要求6的步驟,人工挑選可以根據(jù)數(shù)量要求只挑選前x%的數(shù)據(jù),如結(jié)果數(shù)量已滿足要求,則不對后(100-x)%的數(shù)據(jù)進行挑選,從而節(jié)省(100-x)%的工作量;如結(jié)果數(shù)量不滿足要求,則繼續(xù)對后(100-x)%的數(shù)據(jù)進行挑選。
8.根據(jù)權(quán)利要求7中所述的人工確定帖子信息類別的步驟,其特征在于:由權(quán)利要求5和權(quán)利要求6產(chǎn)生的已排序的n個候選類別,可以根據(jù)需要在挑選工具中給出置信度較大的前m個(其中,0<m≤n)候選項,避免情報人員在自動分類錯誤時每次都要從總類別列表中挑選正確類別,從而提高效率。
9.根據(jù)權(quán)利要求1所述的發(fā)布單元,用來將最終處理完的信息發(fā)布到特定的頁面或保存為特定的格式。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京拓爾思信息技術(shù)有限公司,未經(jīng)北京拓爾思信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710163936.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





