[發明專利]一種基于語義詞網絡的短文本主題挖掘方法有效
| 申請號: | 201910400416.5 | 申請日: | 2019-05-14 |
| 公開(公告)號: | CN110134958B | 公開(公告)日: | 2021-05-18 |
| 發明(設計)人: | 張雷;經偉;蔡洋;陸恒楊;徐鳴;王崇駿 | 申請(專利權)人: | 南京大學 |
| 主分類號: | G06F40/258 | 分類號: | G06F40/258;G06F40/30;G06F40/284 |
| 代理公司: | 南京瑞弘專利商標事務所(普通合伙) 32249 | 代理人: | 劉珊珊 |
| 地址: | 210093 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 語義 網絡 文本 主題 挖掘 方法 | ||
1.一種基于語義詞網絡的短文本主題挖掘方法,其特征在于,包括如下步驟:
步驟1,模型初始化階段:采集相關領域外部語料構建外部語料庫;對外部語料庫與目標語料庫進行預處理操作,使外部語料庫與目標語料庫中的語料轉化為能夠被word2vec模型接受的格式;將外部語料庫作為輸入,訓練word2vec模型,使word2vec模型輸出指定詞向量;通過訓練好的word2vec模型提取目標語料庫中的詞向量數據;
步驟2,主題單元構建階段:
2)-a根據目標語料庫D={d1,d2,...,dn}中詞語的共現關系生成基礎詞共現網絡,具體步驟為:
步驟2)-a-1)建立點集合V、邊集合E、邊屬性集合R,初始狀態為空;
步驟2)-a-2)對于文檔dk={w1,w2,...,wm}中的每個單詞wi,如果單詞wi未出現在集合V中,則將其加入V中,k∈{1,2,…,n};
步驟2)-a-3)對于文檔dk中所有單詞對wi,wj,如果未存在于集合E中,則將其加入E中,并且在集合R中加入邊屬性rij=Sij,sij;其中,Sij={k}表示包含該詞對的文檔號集合,sij表示單詞wi和wj之間的語義相似度屬性;令Sij={k},若邊eij已存在于集合E中,則在邊屬性rij中的文檔號集合Sij中加入文檔號k;
2)-b在詞共現網絡的基礎上融入語義信息構建語義詞網絡,具體步驟為:
步驟2)-b-1)將目標語料庫與外部語料庫中詞語的詞向量數據對比,對于目標語料庫未登錄的詞,設定相應詞向量為空,即為后續無語義信息;
步驟2)-b-2)設置閾值δ;
步驟2)-b-3)對于詞共現網絡中每一對單詞對wi和wj,按照如下公式計算單詞對之間的語義相似度:其中,和分別表示詞wi和wj對應的詞向量;
步驟2)-b-4)判斷每一對單詞對wi和wj間是否有邊連接;若是,轉到步驟2)-b-5);否則,轉到步驟2)-b-6);
步驟2)-b-5)將語義相似度sij記入邊屬性rij=Sij,sij中;
步驟2)-b-6)判斷語義相似度sij是否滿足sij>δ;若是,轉到步驟2)-b-7);否則,該單詞對不做任何操作;
步驟2)-b-7)在邊集合E中加入邊eij,并在邊屬性集合R中加入邊屬性rij=Sij,sij,令sij=sim(wi,wj);
步驟2)-c對于語義詞網絡中每個詞wi計算逆文檔頻率,公式如下:
其中|d∈D:wi∈d|表示包含wi的文檔的個數,ND表示語料庫中文檔總數;
步驟2)-d在語義詞網絡中尋找滿足以下條件的語義詞三角:
語義詞三角中的三個單詞節點之間互相有邊連接,且來自不同文檔子網絡的連接部分;
步驟3,模型訓練階段:對步驟2得到的所有語義詞三角,隨機初始化語義詞三角的主題分布;通過吉布斯采樣得到當前語義詞三角分布,并且由此計算文檔主題分布和主題詞語分布更新參數,循環迭代,直到達到最大迭代次數或吉布斯采樣收斂,將最后得到的吉布斯采樣結果作為語義詞三角主題分布;
步驟4,結果輸出階段:根據步驟3得到的語義詞三角主題分布,推算出原文檔的主題分布。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910400416.5/1.html,轉載請聲明來源鉆瓜專利網。





