[發明專利]一種基于網絡結構和語義相關性度量的標簽語義學習方法有效
| 申請號: | 201810914904.3 | 申請日: | 2018-08-13 |
| 公開(公告)號: | CN109189936B | 公開(公告)日: | 2021-07-27 |
| 發明(設計)人: | 王嫄;楊巨成;李政;趙婷婷;陳亞瑞;趙青 | 申請(專利權)人: | 天津科技大學 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F40/30 |
| 代理公司: | 天津盛理知識產權代理有限公司 12209 | 代理人: | 王利文 |
| 地址: | 300457 天津市濱*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 網絡 結構 語義 相關性 度量 標簽 學習方法 | ||
1.一種基于網絡結構和語義相關性度量的標簽語義學習方法,其特征在于:包括以下步驟:
步驟1、基于用戶行為事實初始化標簽網絡,得到事實標簽網絡G;
步驟2、根據事實標簽網絡G構建規約后的標簽網絡GR;
步驟3、在標簽網絡GR上應用改進的隨機游走策略構建基于隨機游走策略的標簽網絡GC;
步驟4、基于標簽相關的文本信息構建標簽網絡GT;
步驟5、對標簽網絡GC、標簽網絡GT進行歸一化處理,通過隨機游走策略和詞向量學習方法學習標簽語義向量表示;
所述標簽的出現是由用戶的文本撰寫產生的,標簽之間的關系是基于用戶的行為事實的,標簽與文本存在共現關系;
所述事實標簽網絡G為:
定義基于文本內部共現的標簽網絡G={V,E},V為整個文本集合D中所有標簽;如果任意標簽i與標簽j同時出現在一條文本d中,則他們之間有一條邊,記為eij;定義該網絡中邊的權重gij為:
其中,Di,j為同時包含標簽i和j的文本集合,hd為文檔d的標簽集合;
所述步驟2的處理方法為:
首先,考慮語義節點關聯的隨機噪音:剪枝去掉隨機性較強的弱關聯,對網絡的有效邊進行約束以降噪;令剪枝后的關聯矩陣表示為T,則其中元素tij即為標簽i和標簽j剪枝后的關聯值,表示如下:
其中,δ為可截斷20%的低頻邊的階段閾值,gij為網絡中邊的權重;
然后,考慮標簽節點發散程度不同,對于任意一條網絡中的邊,根據邊兩個端點所關聯端點個數的不同調整網絡標簽關聯關系的權重,增強標簽主題關聯:
t′ij=tij*log(N/N(i))*log(N/N(j));
其中,t′ij為GR網絡中邊的權重,N為網絡所包含節點的個數,N(i)、N(j)為標簽i、j在網絡圖上的出度,log(N/N(i))為標簽i與網絡中節點有關聯的概率p(i)=N(i)/N倒數的對數式;
所述步驟3改進的隨機游走策略是將高噪音的復雜網絡結構抽樣為多條線性序列,用寬度優先搜索方法得到網絡局部的微觀描述信息,用深度優先搜索方法得到網絡的全局宏觀信息,根據抽樣的線性序列,利用窗口在線性序列上滑動得到新的標簽關聯關系,從而獲得新的邊權重;
所述步驟4的處理方法為:
首先,定義與標簽i存在共現關系的詞匯集合Wi,用wij表示標簽i與詞匯j共現的次數;
然后,利用逆文本頻率指數idf對wij進行加權,詞ti的idf值計算方法如下:
其中,|D|為集合中的文檔數,|{j:ti∈dj}|為包含詞ti的文檔數;
其次,再計算wij與idfj的乘積,得到標簽的文本表示向量;
最后,計算兩兩標簽文本表示向量的余弦相似度,定義為可截斷80%的低頻邊的截斷閾值,去掉余弦相似度小于的邊,保留邊的權重標記為余弦相似度的值;
所述步驟5在網絡隨機游走過程中,引入圖采樣偏好參數,在標簽網絡GT和標簽網絡GC之間切換,以受益于網絡結構和文本信息兩種關聯;在語義向量更新過程中,利用網絡隨機游走得到的線性序列,將其當做語句,基于左右上下文學習標簽語義。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津科技大學,未經天津科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810914904.3/1.html,轉載請聲明來源鉆瓜專利網。





