[發明專利]基于異構域遷移的輿情角色識別遷移系統在審
| 申請號: | 201811547553.3 | 申請日: | 2018-12-18 |
| 公開(公告)號: | CN109299783A | 公開(公告)日: | 2019-02-01 |
| 發明(設計)人: | 何慧;張偉哲;楊洪偉;方濱興;李韜;周奉蘭;白雅雯 | 申請(專利權)人: | 哈爾濱工業大學 |
| 主分類號: | G06N7/00 | 分類號: | G06N7/00;G06F16/953 |
| 代理公司: | 哈爾濱市松花江專利商標事務所 23109 | 代理人: | 楊立超 |
| 地址: | 150001 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 遷移 參數學習 角色識別 遷移系統 知識遷移 異構域 網民 謂詞 學習 機器學習領域 技術手段 領域知識 數據挖掘 信息有效 學習模塊 知識提取 單目標 復雜度 邏輯網 目標域 有效地 轉換 源域 共享 融入 | ||
基于異構域遷移的輿情角色識別遷移系統,涉及數據挖掘和機器學習領域。為了解決現有技術面對紛繁復雜的網民信息無法進行有效地提取知識,不能在不同領域之間進行遷移學習,進而無法實現知識間接的共享的問題。所述系統為基于馬爾科夫邏輯網的建立的輿情角色識別遷移模型,包括數據謂詞化模塊、結構學習模塊、知識提取模塊、知識遷移模塊和參數學習模塊,將領域知識謂詞化轉換成模型可以識別的知識進行結構學習并提取需要遷移的知識到目標域完成知識遷移,再通過參數學習模塊進行參數學習獲得遷移學習后的模型。采用將轉換復雜度融入領域距離以及考慮單源域到單目標域的遷移學習界限的技術手段,實現了面對紛繁復雜的網民信息有效地提取遷移。
技術領域
本發明涉及一種輿情角色識別遷移系統,涉及數據挖掘和機器學習領域。
背景技術
遷移學習從源域和目標域的輸入空間是否是同一特征空間來說,分為同構遷移學習和異構遷移學習,影響遷移學習效果的因素除了具體模型的選擇,領域距離也是一個很重要的因素,在遷移學習界限的相關研究中,研究者們都會首先對領域距離給出定義,因為這在最后的遷移學習界限分析中會用到,然后利用各種已知理論推理得出最終的遷移學習界限,然而,目前關于異構關系數據的單源域到單目標域的遷移學習界限,與在實驗數據上的表現趨勢有所差距,這可能是因為現有計算方法沒有將異構域轉換的損失考慮在內,從而導致與在實驗數據上的表現趨勢有差距。
從國內外文獻可以大體看出,如今,遷移學習越來越受到學者的關注與重視,每年出現關于數據挖掘和機器學習的頂級會議以及著名期刊上的有關遷移學習的文章越來越多,研究涉及各個領域,現在國內外異構域遷移學習的研究已有較多成果,研究者們提出了各種異構域轉換方法,都只是在最小化異構域轉換過程中的損失,但是幾乎沒有研究者分析這種信息損失對遷移效果的影響,這會給負遷移一個可乘之機,當源域和目標域的領域距離較大時,強行遷移會導致信息損失過大,且源域的知識對目標域的學習不會提供多少有用的知識。所以,給出一個衡量信息損失的測度問題值得深入研究。現有文獻中關于領域遷移學習一般是為提高了算法速度而容忍知識域中存在不完整性和矛盾性,比如文獻號為CN201410717615.6的基于馬爾可夫邏輯網的關聯規則遷移學習方法,該文獻對遷移學習誤差界限沒有給相應說明。至于將領域遷移學習如何利用于輿情角色識別中,沒現有技術沒有記載。
發明內容
本發明的目的是提供一種基于異構域遷移的輿情角色識別遷移系統,為了解決現有技術面對紛繁復雜的網民信息無法進行有效地提取知識,不能在不同領域之間進行遷移學習,進而無法實現知識間接的共享的問題。
本發明為解決上述技術問題采取的技術方案是:
一種基于異構域遷移的輿情角色識別遷移系統,所述系統為基于馬爾科夫邏輯網的建立的輿情角色識別遷移模型,包括數據謂詞化模塊、結構學習模塊、知識提取模塊、知識遷移模塊和參數學習模塊,首先利用數據謂詞化模塊將領域知識謂詞化轉換成模型可以識別的知識,然后利用結構學習模塊進行結構學習并通過知識提取模塊提取需要遷移的知識到目標域,利用知識遷移模塊完成知識遷移,再通過參數學習模塊進行參數學習獲得遷移學習后的遷移模型,由模型評估進行模型效果評估,然后調節遷移的知識比以優化遷移模型。
數據謂詞化模塊基于馬爾可夫邏輯網的知識表示形式將源域和目標域都進行數據謂詞化。
結構學習模塊是在已經定義的謂詞的基礎上,利用訓練數據集訓練,得到網絡的結構,網絡結構使用一系列一階邏輯語句表示,使用LSM算法生成候選的一階邏輯子句,每個子句后面都會有相應的WPLL值,值越大表示子句表達的知識越有價值;源域和目標域都需要結構學習;使用LSM算法生成比普通的結構學習算法更多的候選子句,用于增大遷移知識的可選擇性。
知識提取模塊,用于對結構學習得到的一階邏輯子句提升為二階子句進行知識抽象化,移除每個謂詞的具體含義以實現領域之間遷移,源域和目標域通過結構學習得到的一階子句,均抽象成二階子句。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學,未經哈爾濱工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811547553.3/2.html,轉載請聲明來源鉆瓜專利網。





