[發明專利]一種基于語義的文本分類方法在審
| 申請號: | 201410348319.3 | 申請日: | 2014-07-21 |
| 公開(公告)號: | CN104182463A | 公開(公告)日: | 2014-12-03 |
| 發明(設計)人: | 賈巖 | 申請(專利權)人: | 安徽華貞信息科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 合肥市長遠專利代理事務所(普通合伙) 34119 | 代理人: | 程篤慶;黃樂瑜 |
| 地址: | 230000 安徽省合肥市高*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 語義 文本 分類 方法 | ||
技術領域
本發明涉及文本信息智能檢索技術領域,尤其涉及一種基于語義的文本分類方法。
背景技術
文本分類技術在很多領域都有應用,例如,將文本進行分類,分類后的文本用于指導機器翻譯中翻譯模型的訓練,可見,文本分類的精度很重要,精度高的分類文本,可以在其應用領域帶來有益效果,而如果文本分類的精度不夠,就會給使用這些分類文本的應用帶來不利影響。
在現有的文本分類方法中,通常采用訓練語料進行分類器訓練,然后用訓練后的分類器對文本進行分類的方式進行。這種方式下,首先,獲取大量標注的訓練語料存在困難,如果采用大規模手工標注,則效率低下,其次,由于訓練語料有可能存在類別偏見(例如有的標記為新聞的語料,可能更適合標記為娛樂),會導致分類器也帶有類別偏見,因此最終會導致分類精度的降低。另外,現有技術也有用聚類的方法將文本分為若干類別的,但是由于在聚類時對聚出的各個類別無法控制,所以如果只采用聚類的方法將文本分為若干類別,可能存在無法得到真正需要的類的情況。
發明內容
基于背景技術存在的問題,本發明提出了基于語義的文本分類方法,根據文本的語義對文本進行分類,可達到理想的分類效果,而且效率高。
本發明提出的一種基于語義的文本分類方法,根據文本的語義對文本進行分類,包括以下步驟:
A、根據文本集選擇預設詞典組合構建本體庫;
B、將文本集統一格式并分解為基本單元,根據本體庫將文本集轉化為概念;
C、抽取文本集的特征項,并計算特征項的權重;
D、根據預設訓練集構建分類器,并根據預設測試集對分類器進行測試和調整;
E、根據分類器對文本集進行分類。
優選地,預設詞典包括實體詞典和特征詞典。
優選地,實體詞典和特征詞典由人工設置,并可根據文本集進行修改。
優選地,文本集根據實體詞典進行概念轉換。
優選地,文本集根據特征詞典抽取特征項。
優選地,特征項權值的計算公式為:
其中,w為特征項t在文檔d中的權重值,tf表示t在d內出現的頻率,idf表示t的反比文本頻率,n表示訓練集的文檔總數,m表示訓練集中包含t的文檔數。
優選地,訓練集由人工設置,并可根據文本集進行修改。
優選地,測試集根據訓練集進行設置。
優選地,分類器采用SVM算法。
本發明根據文本的語義對文本進行分類,直接將文本集轉換為概念,即去除了沒有實際意義的冗余信息,節約了文本處理的時間,又提高了文本信息的清晰程度,尤其避免了一詞多義和多詞一義的干擾。本發明中直接抽取特征項并計算權重,作為文本分類的參考依據,使得分類結果更加合理、精確。本發明提供的一種基于語義的文本分類方法,分類精度理想,效率高,能夠滿足大多數場景的需要。
附圖說明
圖1為本發明提供的一種基于語義的文本分類方法的流程圖。
具體實施方式
本發明提出的一種基于語義的文本分類方法,根據文本的語義對文本進行分類,將文本集概念化處理使得文本信息表達更加清晰簡練,使得分類結果更加理想的同時,也大大提高分類效率。
參照圖1,本實施方式提供的分類方法包括以下步驟:
A、根據文本集選擇預設詞典組合構建本體庫;
B、將文本集統一格式并分解為基本單元,根據本體庫將文本集轉化為概念;
C、抽取文本集的特征項,并計算特征項的權重;
D、根據預設訓練集構建分類器,并根據預設測試集對分類器進行測試和調整;
E、根據分類器對文本集進行分類。
本實施方式的步驟A中,預設詞典包括實體詞典和特征詞典,實體詞典和特征詞典根據文本集所屬行業由人工進行設定,并可根據文本集的內容進行修改,提高實體詞典和特征詞典的針對性,從而提高文本分類的精確度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于安徽華貞信息科技有限公司;,未經安徽華貞信息科技有限公司;許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410348319.3/2.html,轉載請聲明來源鉆瓜專利網。





