[發明專利]一種基于廣義K均值算法的文本多標記學習方法在審
| 申請號: | 201811349729.4 | 申請日: | 2018-11-13 |
| 公開(公告)號: | CN109685103A | 公開(公告)日: | 2019-04-26 |
| 發明(設計)人: | 曾理;王純斌;趙神州;覃進學;藍科 | 申請(專利權)人: | 成都四方偉業軟件股份有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F16/35 |
| 代理公司: | 成都睿道專利代理事務所(普通合伙) 51217 | 代理人: | 萬利 |
| 地址: | 610041 四川省*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 樣本 字典 多標記 訓練樣本集 均值算法 非零 預處理 文本 學習 迭代停止條件 測試樣本集 編碼向量 標記向量 發生頻率 分類結果 計算存儲 隨機挑選 索引位置 稀疏編碼 原始文本 標記權 初始化 解釋性 魯棒性 維度 向量 排序 認知 挖掘 災難 更新 | ||
1.一種基于廣義K均值算法的文本多標記學習方法,其特征在于:包括以下步驟:
步驟一:預處理原始文本,得到訓練樣本集和測試樣本集;
步驟二:根據訓練樣本集初始化字典D0并隨機挑選K個樣本,通過KSVD算法逐列更新字典D0中的樣本直到滿足迭代停止條件,得到欠完備字典D并將欠完備字典D中的樣本作為多標記學習的標記向量;
步驟三:計算樣本在欠完備字典D上的稀疏編碼,以編碼向量非零值索引位置的對應樣本為樣本多標記學習分類結果,以向量非零值大小為標記權重,完成標記排序。
2.根據權利要求1所述的一種基于廣義K均值算法的文本多標記學習方法,其特征在于:所述的步驟一中預處理原始文本具體包括以下內容:
步驟101:對于中文文本,去除原始文本中非中文部分,對原始文本中的語句進行以詞匯為單位的分割,所述的非中文部分包括標點、特殊符號、表情和公式;
對于英文文本,統一英文文本的大小寫并去除特殊符號,然后歸一化詞型,將所有詞型歸一為同一時態語態;
步驟102:加入專有詞,引入停用詞表,所述停用詞為對原始文本內容無關的詞匯,去除停用詞,采用詞袋模型獲取文本空間向量,計算處理后文本的TF-IDF,合并特征得到訓練樣本集。
3.根據權利要求1所述的一種基于廣義K均值算法的文本多標記學習方法,其特征在于:所述的步驟二中初始化字典D0具體包括以下內容:
在訓練樣本集中隨機挑選K個樣本作為字典D0的樣本,所述字典D0的樣本為字典D0中的列向量,通過正交匹配追蹤算法求取每個樣本的稀疏編碼xi,其中,稀疏編碼xi依據以下約束:
其中,D為欠完備字典,X為稀疏編碼矩陣,Y為K個樣本組成的矩陣,i為1到K的自然數,T為xi中非零元素的數量。
4.根據權利要求1所述的一種基于廣義K均值算法的文本多標記學習方法,其特征在于:所述的步驟二中通過KSVD算法逐列更新字典D0中的樣本直到滿足迭代停止條件具體包括以下步驟:
步驟201:依次更新字典D0中的樣本dk,在更新時固定字典D0中的其它樣本,稀疏編碼矩陣X中對應dk的行為稠密向量
步驟202:記錄樣本稀疏編碼中所有用到樣本dk的樣本中該樣本對應的索引,并構成索引集合,通過索引集合過濾誤差矩陣、稀疏編碼中的零值對應位置的數據,獲得去掉不受樣本dk影響的樣本時且不考慮dk在其影響的樣本成分條件下所帶來的誤差以及過濾零值后的稠密向量
步驟203:對誤差進行奇異值分解,計算公式為:
其中,U為左奇異值構成的矩陣,V為右奇異值構成的矩陣,Δ為以奇異值作為對角線元素,其余位置為零的與相同維度的矩陣;
將酉陣U的第一列作為dk的更新結果,將酉陣V的第一列和對角矩陣Δ的第一個特征值Δ(1,1)的乘積更新為稠密向量
步驟204:滿足下列條件之一后停止訓練:
1)通過正交匹配追蹤算法重構樣本,所述的重構樣本為進行稀疏編碼之后的樣本,計算原樣本與重構樣本之間的誤差,若誤差小于誤差閾值則停止訓練,所述誤差閾值的范圍為千分之一至百分之一;
2)達到訓練迭代次數。
5.根據權利要求1所述的一種基于廣義K均值算法的文本多標記學習方法,其特征在于:所述的步驟三具體包括以下內容:
獲取分類模型:以欠完備字典D中樣本作為聚類中心,得到新的K個類別和標記特征向量,所述的類別與樣本一一對應,所述的標記特征向量為更新后的樣本dk;
獲取樣本標記與標記權重:通過正交匹配追蹤算法求取測試樣本y的稀疏編碼,其中,測試樣本y的稀疏編碼x依據以下約束:
y=Dxsubjectto||x||0≤T
其中,T為樣本可含有的標記數量。
6.根據權利要求5所述的一種基于廣義K均值算法的文本多標記學習方法,其特征在于:所述的步驟三具體包括以下內容:
將最終字典作為分類模型,最終字典的樣本作為標記特征向量,最終字典的樣本在最終字典上的稀疏編碼向量為多標記結果,該稀疏編碼向量中非零元素位置的對應樣本為樣本對應標記,該稀疏編碼向量中非零元素大小為所對應標記權重。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都四方偉業軟件股份有限公司,未經成都四方偉業軟件股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811349729.4/1.html,轉載請聲明來源鉆瓜專利網。





