[發明專利]一種基于語義計算的分類器構建方法、分類器有效
| 申請號: | 201810159255.0 | 申請日: | 2018-02-26 |
| 公開(公告)號: | CN108388914B | 公開(公告)日: | 2022-04-01 |
| 發明(設計)人: | 宋俊平;程國艮 | 申請(專利權)人: | 中譯語通科技股份有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06V10/774;G06F16/35 |
| 代理公司: | 北京萬貝專利代理事務所(特殊普通合伙) 11520 | 代理人: | 馬紅 |
| 地址: | 100040 北京市石*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 語義 計算 分類 構建 方法 | ||
1.一種基于非監督學習的文本所屬分類方法,其特征在于,所述基于非監督學習的文本所屬分類方法利用神經網絡模型在維基百科數據上訓練詞向量,獲得詞的分布式表征;利用加權平均的方法獲得文本的向量表示通過計算分類向量和文本向量之間的語義關系來獲得文本所屬的最可能的分類;
非監督分類直接從類別的內在特征出發,進行分類類別的特征表示,通過特征詞和預先訓練的詞向量,利用向量加權平均的方法計算出類向量,計算方法為:
其中Vectorrw為排斥特征詞向量,ω3為懲罰權重;Vectorc為要求的類向量,是一個N維的浮點向量,Vectorcw和Vectorfw分別為分類類名和分類特征詞的詞向量,ω1和ω2分別為兩類特征詞分別表示的權重,N表示每個類別特征詞的數量,M表示每個排斥特征詞的數量;
文本正文的語義向量通過計算文章所含詞的詞向量的加權平均和得到,利用算法對文本中字符進行重要性排序,一個字符的權重計算公式為:
其中d為阻尼系數,In(Wi)為指向當前字符的字符集合,Out(Wj)為當前字符指向的字符集合,ωji為兩個字符共現權重;通過加權平均和的方式獲得文本語義向量,用公式表示為:
其中,Vector(s)表示標題或者正文的向量,Vi表示標題或正文中第i個字的向量,WS(Wi)是計算好的第i個字的重要性權重,n表示每個類別特征詞的字的數量。
2.一種利用權利要求1所述的基于非監督學習的文本所屬分類方法的基于語義計算的分類器構建方法,其特征在于,所述基于語義計算的分類器構建方法包括:
(1)半監督階段,利用textrank算法從訓練數據中自動提取出類別特征加入到非監督學習模型;
(2)監督學習階段,引入了監督學習方法,訓練好后將監督學習接口遷移到分類接口上,經過用戶確認后替換原來非監督的分類方法;
非監督分類直接從類別的內在特征出發,進行分類類別的特征表示,通過特征詞和預先訓練的詞向量,利用向量加權平均的方法計算出類向量,計算方法為:
其中Vectorrw為排斥特征詞向量,ω3為懲罰權重;Vectorc為要求的類向量,是一個N維的浮點向量,Vectorcw和Vectorfw分別為分類類名和分類特征詞的詞向量,ω1和ω2分別為兩類特征詞分別表示的權重,N表示每個類別特征詞的數量,M表示每個排斥特征詞的數量;
文本正文的語義向量通過計算文章所含詞的詞向量的加權平均和得到,利用算法對文本中字符進行重要性排序,一個字符的權重計算公式為:
其中d為阻尼系數,In(Wi)為指向當前字符的字符集合,Out(Wj)為當前字符指向的字符集合,ωji為兩個字符共現權重;通過加權平均和的方式獲得文本語義向量,用公式表示為:
其中,Vector(s)表示標題或者正文的向量,Vi表示標題或正文中第i個字的向量,WS(Wi)是計算好的第i個字的重要性權重,n表示每個類別特征詞的字的數量;
所述半監督階段利用算法從類別下標注數據中提取特征詞,將特征詞加入到非監督分類中的類特征詞池中,類向量計算方法更新為:
其中Vectorhw為非監督提取出特征詞向量,ω4為非監督學習指導權重,WS(Wi)為非監督提取出特征詞權重;Vectorrw為排斥特征詞向量,ω3為懲罰權重;Vectorc為要求的類向量,是一個N維的浮點向量,Vectorcw和Vectorfw分別為分類類名和分類特征詞的詞向量,ω1和ω2分別為兩類特征詞分別表示的權重,N表示每個類別特征詞的數量,M表示每個排斥特征詞的數量,K表示每個非監督特征詞的數量。
3.一種如權利要求2所述基于語義計算的分類器構建方法的基于語義計算的分類器構建系統,其特征在于,所述基于語義計算的分類器構建系統包括:
非監督學習模塊,用于獲得文本所屬的最可能的分類;
半監督模塊,用于從訓練數據中自動提取出類別特征加入到非監督學習模型;
監督學習模塊,用于訓練好后將監督學習接口遷移到分類接口上,經過用戶確認后替換原來非監督的分類方法;
非監督分類直接從類別的內在特征出發,進行分類類別的特征表示,通過特征詞和預先訓練的詞向量,利用向量加權平均的方法計算出類向量,計算方法為:
其中Vectorrw為排斥特征詞向量,ω3為懲罰權重;Vectorc為要求的類向量,是一個N維的浮點向量,Vectorcw和Vectorfw分別為分類類名和分類特征詞的詞向量,ω1和ω2分別為兩類特征詞分別表示的權重,N表示每個類別特征詞的數量,M表示每個排斥特征詞的數量;
文本正文的語義向量通過計算文章所含詞的詞向量的加權平均和得到,利用算法對文本中字符進行重要性排序,一個字符的權重計算公式為:
其中d為阻尼系數,In(Wi)為指向當前字符的字符集合,Out(Wj)為當前字符指向的字符集合,ωji為兩個字符共現權重;通過加權平均和的方式獲得文本語義向量,用公式表示為:
其中,Vector(s)表示標題或者正文的向量,Vi表示標題或正文中第i個字的向量,WS(Wi)是計算好的第i個字的重要性權重,n表示每個類別特征詞的字的數量;
所述半監督階段利用算法從類別下標注數據中提取特征詞,將特征詞加入到非監督分類中的類特征詞池中,類向量計算方法更新為:
其中Vectorhw為非監督提取出特征詞向量,ω4為非監督學習指導權重,WS(Wi)為非監督提取出特征詞權重;Vectorrw為排斥特征詞向量,ω3為懲罰權重;Vectorc為要求的類向量,是一個N維的浮點向量,Vectorcw和Vectorfw分別為分類類名和分類特征詞的詞向量,ω1和ω2分別為兩類特征詞分別表示的權重,N表示每個類別特征詞的數量,M表示每個排斥特征詞的數量,K表示每個非監督特征詞的數量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中譯語通科技股份有限公司,未經中譯語通科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810159255.0/1.html,轉載請聲明來源鉆瓜專利網。





