[發明專利]基于異構域遷移的輿情角色識別遷移系統在審
| 申請號: | 201811547553.3 | 申請日: | 2018-12-18 |
| 公開(公告)號: | CN109299783A | 公開(公告)日: | 2019-02-01 |
| 發明(設計)人: | 何慧;張偉哲;楊洪偉;方濱興;李韜;周奉蘭;白雅雯 | 申請(專利權)人: | 哈爾濱工業大學 |
| 主分類號: | G06N7/00 | 分類號: | G06N7/00;G06F16/953 |
| 代理公司: | 哈爾濱市松花江專利商標事務所 23109 | 代理人: | 楊立超 |
| 地址: | 150001 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 遷移 參數學習 角色識別 遷移系統 知識遷移 異構域 網民 謂詞 學習 機器學習領域 技術手段 領域知識 數據挖掘 信息有效 學習模塊 知識提取 單目標 復雜度 邏輯網 目標域 有效地 轉換 源域 共享 融入 | ||
1.一種基于異構域遷移的輿情角色識別遷移系統,其特征在于,所述系統為基于馬爾科夫邏輯網的建立的輿情角色識別遷移模型,包括數據謂詞化模塊、結構學習模塊、知識提取模塊、知識遷移模塊和參數學習模塊,首先利用數據謂詞化模塊將領域知識謂詞化轉換成模型可以識別的知識,然后利用結構學習模塊進行結構學習并通過知識提取模塊提取需要遷移的知識到目標域,利用知識遷移模塊完成知識遷移,再通過參數學習模塊進行參數學習獲得遷移學習后的遷移模型,由模型評估進行模型效果評估,然后調節遷移的知識比以優化遷移模型。
2.根據權利要求1所述一種基于異構域遷移的輿情角色識別遷移系統,其特征在于,數據謂詞化模塊基于馬爾可夫邏輯網的知識表示形式將源域和目標域都進行數據謂詞化。
3.根據權利要求2所述一種基于異構域遷移的輿情角色識別遷移系統,其特征在于,
結構學習模塊是在已經定義的謂詞的基礎上,利用訓練數據集訓練,得到網絡的結構,網絡結構使用一系列一階邏輯語句表示,使用LSM算法生成候選的一階邏輯子句,每個子句后面都會有相應的WPLL值,值越大表示子句表達的知識越有價值;源域和目標域都需要結構學習;使用LSM算法生成比普通的結構學習算法更多的候選子句,用于增大遷移知識的可選擇性。
4.根據權利要求3所述一種基于異構域遷移的輿情角色識別遷移系統,其特征在于,
知識提取模塊,用于對結構學習得到的一階邏輯子句提升為二階子句進行知識抽象化,移除每個謂詞的具體含義以實現領域之間遷移,源域和目標域通過結構學習得到的一階子句,均抽象成二階子句。
5.根據權利要求4所述一種基于異構域遷移的輿情角色識別遷移系統,其特征在于,
知識遷移模塊,用于源域和目標域之間的知識遷移,通過將源域和目標域得到的二階子句相對應,然后選取在源域和目標域的二階子句中,使用調節參數調整后,得到的WPLL值對應的二階子句,對應的一階子句作為目標域結構學習的結果。
6.根據權利要求3所述一種基于異構域遷移的輿情角色識別遷移系統,其特征在于,
參數學習模塊,用于對遷移學習得到的目標域網絡結構進行參數學習,即優化各個一階邏輯子句的權重,得到最終的遷移學習輿情角色識別模型。
7.根據權利要求1、2、3、4、5或是6一種基于異構域遷移的輿情角色識別遷移系統,其特征在于,所述基于馬爾科夫邏輯網的建立的輿情角色識別遷移模型,將轉換復雜度融入領域距離,提出新的領域距離公式,提出單源域到單目標域的遷移學習界限計算過程,具體為:
假設源域空間XS下的一個分布樣本集服從分布假設目標域空間XT下的一個分布樣本集服從分布假定存在公共域空間XC下的樣本集和分別對應源域樣本集SS和目標域樣本集ST轉換到公共域空間下的樣本集,其分布分別從服從于和
定義1轉換函數集:轉換函數集Ftr將源域空間XS下的樣本xS和目標域空間XT下的樣本xT轉換到公共域空間XC下,完成領域轉換;轉換函數集Ftr的每個函數滿足:ftr:XS/XT→XC;
第一類異構域轉換方法,只對源域數據進行了轉換,這是一種非對稱的域轉換方式;第二類異構域轉換方法,對源域數據和目標域數據同時進行了轉換,這是一種對稱的域轉換方式,給出兩者的形式化定義;
定義2非對稱域轉換方式:當XT=XC時,轉換函數集Ftr的轉換方式為非對稱域轉換,此時轉換函數集Ftr可重寫為ftr:XS→XT;
定義3對稱域轉換方式:當XT≠XC時,轉換函數集Ftr的轉換方式為對稱域轉換;
先求得非對稱域轉換過程的遷移學習界限,然后對對稱域轉換下的遷移學習作相應的變換;
將噪聲對函數值的擾動考慮在內,定義了描述轉換函數集轉換能力的度量,具體見定義4;
定義4經驗轉換復雜度:給定一個空間X下的分布D|X,樣本集S={x1,...,xm}符合分布D|X,轉換函數集Ftr將空間X下樣本轉換到另一空間X'下,滿足:ftr:X→X',假設集H滿足:則關于假設集H的轉換函數集Ftr的經驗轉換復雜度定義為:
其中,σ1,σ2,...,σm為獨立同分布變量,且服從值為{-1,1},p為0.5的伯努利分布;
定義5轉換復雜度:關于假設集H的轉換函數集Ftr的轉換復雜度定義為:
假設集H,均是二分類函數h的集合,滿足h:X→{0,1},且函數集均是對稱函數集,即滿足這在之后的推導中會用到,且f表示真實的標簽函數,注意與轉換函數ftr的區分,二者含義完全不同,分類誤差表示為ε(h)=ε(h,f)=Ex~D[|h(x)-f(x)|];
1)、領域距離分解:
遷移學習界限的求取首先要解決的問題是領域距離的測量,領域距離的測量首先對該度量進行分解:
假設分布D1與分布D2屬于不同的特征空間,分布D1→2表示由分布D1通過異構域轉換得到的與分布D2屬于同一特征空間的一個分布,則可以得到:
在不等式(2-3)中,分布D1→2與分布D2屬于相同的特征空間,則根據獨立同分布數據的距離一致性收斂不等式,有以下推導:
其中,假設另外,U1→2和U2分別代表的是分布D1→2和D2下的樣本集,并且為了便于化簡,使
不等號右邊的部分為并且假設其中和都大于0,通過一系列變換和化簡可以得到關系數據下真實領域距離與經驗之間的差距為:
而且,因為分布D1→2與分布D2屬于相同的特征空間,則根據同構下分布之間的經驗距離計算公式可以得到:
所以,結合公式(2-5)和(2-6),并且,在此假設源域樣本數和目標域樣本數相同,都為m,則可以得到同構關系數據的領域距離公式:
其中,d2表示假設集H2的VC維;接下來將注意力集中在的界限推導上,為了便于后續的推導,在此令ED[h(x)]表示領域分布D下假設h的期望值,則根據散度的定義可以得到:
由于假設函數集均具有對稱性,因此假設h2滿足又因為h2的取值僅可能為0和1,所以上式可以如下繼續推導:
以上完成了對領域距離的分解,接下來會對不等式(2-9)右邊的具體的推導,得出最終的異構域轉換下的領域距離公式;
2)、領域距離計算:
非對稱異構域轉化下的領域距離為:
對稱異構域轉換下的領域距離為:
3、單源域到單目標域的遷移學習界限推導:
首先,需要在領域距離與假設誤差之間建立關聯,給出了對稱差異抽象假設空間對于任意的A,有:
對于每個表示的抽象假設空間集合中的任意兩個抽象假設空間下分別具體化到兩個領域中的假設集之間的差異;然后,根據該定義和領域距離的定義,可以進行如下推導:
對上式整理可以得到領域距離與假設誤差之間的關聯公式:
然后根據誤差的三角不等式,這里雖然特征空間泛化到了抽象特征空間,但是對誤差的三角不等式并沒有影響,在此仍然適用,所以對分布D2領域的假設的誤差運用誤差三角不等式可以得到:
其中,和分別表示領域概率分布D1和D2的最小誤差假設,λ表示的是在這兩個最小誤差假設下的誤差值之和,當該值較大時,說明領域D1和D2之中,至少有一個領域是很難學習的,不能得到一個表現效果較好的分類器,若是如此,再談遷移學習是沒有意義的,我們進行遷移學習的前提是,參與遷移的領域都必須是可學習的,并且能夠找到一個誤差較小的模型;只有這樣,才能通過異構域轉換減小領域距離,從而最終達到減小目標域遷移學習誤差的目的;
接下來,基于遷移學習的場景,假設參與訓練的樣本集S=(SS,ST),共含有m個數據,其中目標域樣本集ST占總樣本的比例為β,模型的最終目的是發現一個可以使得目標域分類誤差最小的假設;
由于樣本包含源域和目標域兩個領域的樣本,所以最終得到的針對目標域的分類假設函數的分類誤差一定是與該假設在兩個領域的分類誤差相關的,所以在此定義一個關于源域和目標域的經驗最小凸組合誤差,如下所示:
其中α∈[0,1],從上式中可以看出,用來平衡源域和目中α標域的誤差比重,當α為1時,經驗最小凸組合誤差僅僅由目標域的經驗誤差決定,當α為0時,經驗最小凸組合誤差僅僅由源域的經驗誤差決定;
接下來,需要衡量最小凸組合誤差和目標域誤差的差異,根據最小凸組合誤差的定義和公式(2-36),通過增減項和應用關于誤差的三角不等式,可以推導得到:
需要說明的是,與之間是存在差距的,兩者假設的VC維,前者是后者的兩倍;所以對于來說,公式(2-31)和公式(2-32)中涉及的目標域VC維dT應該變為2dT,其余保持不變;
然后,需要考慮經驗最小凸組合誤差和真實的最小凸組合誤差εα(hA)之間的區別,這給出適用于關系數據的誤差一致性收斂不等式,如下式所示:
這里,令不等式的右邊小于等于θ,結合VC維的泛化誤差界限,通過整理化簡可以的到,下式至少有1-θ的可能性成立:
其中,τT和τS為固定誤差值,大約為0.13;
然后,將公式(2-38)和(2-40)整理,綜合可以有如下推導過程:
在此,關于異構關系數據的一對一遷移學習界限推導結束,最終得到的界限公式如下所示:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學,未經哈爾濱工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811547553.3/1.html,轉載請聲明來源鉆瓜專利網。





