[發明專利]一種對論壇中有用帖子信息進行分類并整理的方法無效
| 申請號: | 200710163936.6 | 申請日: | 2007-10-12 |
| 公開(公告)號: | CN101178721A | 公開(公告)日: | 2008-05-14 |
| 發明(設計)人: | 薛永剛;呂學強;都云程;林春雨;施水才 | 申請(專利權)人: | 北京拓爾思信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 10010*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 論壇 有用 帖子 信息 進行 分類 整理 方法 | ||
技術領域
本發明與包括文檔分類的自然語言處理技術有關。更準確的說,本發明涉及提供一種在論壇帖子信息數量較大且很難用自動分類精確確定類別時,可以有效的將有用信息進行聚集,提供分類信息,從而大大減少人工整理的工作量的方法。
背景技術
隨著Internet和電子技術的發展,人們再也不用受到地域的限制,可以方便的在網上交換著各種各樣的信息。論壇也作為一種方便、有效的形式被大家廣為接受。在大量用戶的參與下,論壇中存在著大量的有用信息,這些信息不僅對個人有很好的使用價值,對企業等團體也有很好的使用價值。如某一產品的論壇,用戶可以在論壇中發布自己的使用心得、所發現的問題等信息,這些信息可以作為其他個人的購買建議;而且這種信息對企業也有很好的參考價值,可以作為企業改進產品的建議。
但論壇中信息的發布存在著很大的隨意性,論壇中包含著有用信息的同時也還包含著大量的無用信息。目前解決的方法有:1、使用文本自動分類的技術,將帖子自動分到所屬的類別中,從而達到抽取和整理有用信息的目的。該方法的好處是成本較低且效率高,但在帖子特征不明顯而且無用信息數量十分大的情況下準確率較低,不能適用于對抽取信息質量要求較為嚴格的情況下。2、采用人工的方法來區分有用信息和無用信息,并確定有用信息的類別。該方法的好處就是所得到的結果的準確率極高,但缺點就是效率低且成本高,而且在帖子數量極大的情況下完成極其困難。
因此,我們迫切需要解決的問題是:如何方便有效的得到有用信息。
發明內容
鑒于以上原因,本發明提供了一種可以在帖子數量較大且存在較多無用數據的情況下,方便有效的得到有用信息的方法。
本發明結合網絡信息采集裝置,對采集來的信息首先利用規則模板進行過濾,將大部分無用信息過濾掉。對于過濾后的信息使用文本自動分類裝置,使所有的帖子得到相應的類別,并產生帖子對應類別的置信度。在帖子都得到相應類別和置信度后,根據置信度由大到小進行排列。對于排序后的數據,選取前x%的數據作為第一批挑選數據,由人工進行挑選,若結果數量不滿足要求,則再進行后(100-x)%數據的挑選工作,否則不對后(100-x)%的數據進行挑選,達到節省人工的目的。最終,對挑選后的結果進行發布。
本發明相比上述現有方法具有以下優點:
1)利用規則模板自動過濾的方法將大部分無用信息過濾掉,大大減輕了后續挑選工作的工作量。而且根據不同的領域可以生成不同的規則模板,并根據具體情況擴充模板,具有很好的擴充性。
2)在分類的同時得到類別置信度,以置信度排序后按x%和(100-x)%來分割數據。據我們實驗的結果,見下表:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京拓爾思信息技術有限公司,未經北京拓爾思信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200710163936.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種結構光光條中心線提取的混合圖像處理方法
- 下一篇:自抽油煙燃氣灶
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





