[發明專利]參考外部知識構建文本分類器的方法和設備有效
| 申請號: | 200910171947.8 | 申請日: | 2009-09-22 |
| 公開(公告)號: | CN102023986A | 公開(公告)日: | 2011-04-20 |
| 發明(設計)人: | 李建強;趙彧;劉博 | 申請(專利權)人: | 日電(中國)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京東方億思知識產權代理有限責任公司 11258 | 代理人: | 李曉冬;南霆 |
| 地址: | 100084 北京市海淀區中*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 參考 外部 知識 構建 文本 分類 方法 設備 | ||
1.一種用于構建文本分類器的方法,包括:
輸入標注文本集;
提取所述標注文本集的內部特征;
參考外部知識源構建所述標注文本集的外部特征;
綜合考慮所述標注文本集的內部特征和外部特征,從所述標注文本集中選擇訓練文本;以及
利用所選擇的訓練文本來學習生成所述文本分類器。
2.如權利要求1所述的方法,其中提取所述標注文本集的內部特征的步驟包括:
對所述標注文本集中的每個標注文本進行向量化,以得到對應于該標注文本的向量空間模型,
其中各個標注文本的向量空間模型所包含的詞匯一起構成所述標注文本集的內部特征。
3.如權利要求1所述的方法,其中創建所述標注文本集的外部特征的步驟包括:
針對每個類別:
對相應的類別名進行分詞處理以將其分解為一組詞匯;
對每個所述詞匯在所述外部知識源中的每個詞義進行打分;
根據打分結果選擇所述詞匯的得分高的一個或多個詞義;以及
將所述一組詞匯和每個詞匯的得分高的一個或多個詞義詞匯組合起來,以構成所述標注文本集的針對所述類別的外部特征。
4.如權利要求3所述的方法,其中所述類別的類別名不具有自然語言的語義信息,并且創建所述標注文本集的外部特征的步驟還包括:
通過分析所述類別所包含的標注文本來自動創建所述類別的準類別名;并且
其中,所述準類別名作為所述類別的類別名被用于外部特征的創建。
5.如權利要求3所述的方法,其中創建所述標注文本集的外部特征的步驟還包括:
從分解得到的所述一組詞匯中去除停用詞。
6.如權利要求3所述的方法,其中所選擇的每個詞義在所述外部知識源中通過語義關系外延出來的詞匯也被用作所述類別的外部特征。
7.如權利要求1所述的方法,其中所述外部知識源是詞典。
8.如權利要求3所述的方法,其中從所述標注文本集中選擇訓練文本的步驟包括:
通過計算所述向量空間模型之間的相似性來計算兩兩標注文本之間的距離;
利用所述標注文本集的外部特征調整計算出的所述兩兩標注文本之間的距離;以及
利用統計方法、根據調整后的所述標注文本之間的距離來選擇所述訓練文本。
9.如權利要求8所述的方法,其中選擇所述訓練文本的步驟包括:
計算以每個標注文本為中心的最大不包含其他類別的標注文本的圓形區域中所包含的標注文本的個數;并且
選擇具有最少個數的標注文本的圓形區域中所包含的標注文本,作為所述訓練文本。
10.如權利要求8所述的方法,其中選擇所述訓練文本的步驟包括:
計算每個標注文本到其他類別的標注文本的凸集的距離;并且
選擇具有最小距離的標注文本,作為所述訓練文本。
11.如權利要求8所述的方法,其中利用所述外部特征調整計算出的所述兩兩標注文本之間的距離的步驟包括:
對同時出現在所述標注文本集的內部特征和外部特征中的詞匯賦予更高的權重;并且
根據所述權重來調整計算出的所述兩兩標注文本之間的距離。
12.如權利要求3所述的方法,其中從所述標注文本集中選擇訓練文本的步驟包括:
利用所述標注文本集的所述外部特征對每個所述標注文本進行初始化打分;
利用所述標注文本集的所述內部特征來精化所述初始化打分結果;以及
根據各個標注文本的精化后的打分結果來選擇所述訓練文本。
13.如權利要求12所述的方法,其中對每個所述標注文本進行初始化打分的步驟包括:
對于所述標注文本集中的每個類別,利用相應的外部特征所包含的詞匯作為查詢關鍵字對該類別中的標注文本進行查詢;并且
將所述查詢的返回結果所反映出的每個標注文本與相應類別的所述外部特征的相似度作為該標注文本的所述初始化打分結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于日電(中國)有限公司,未經日電(中國)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910171947.8/1.html,轉載請聲明來源鉆瓜專利網。





