[發明專利]一種基于社交網絡的人物興趣標簽提取方法有效
| 申請號: | 201810271591.4 | 申請日: | 2018-03-29 |
| 公開(公告)號: | CN108427769B | 公開(公告)日: | 2021-10-08 |
| 發明(設計)人: | 韓月輝;趙雷 | 申請(專利權)人: | 蘇州大學 |
| 主分類號: | G06F16/9536 | 分類號: | G06F16/9536;G06F16/35;G06F40/289;G06F40/216;G06Q50/00 |
| 代理公司: | 蘇州市中南偉業知識產權代理事務所(普通合伙) 32257 | 代理人: | 馮瑞;楊慧林 |
| 地址: | 215000 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 社交 網絡 人物 興趣 標簽 提取 方法 | ||
1.一種基于社交網絡的人物興趣標簽提取方法,其特征在于,包括以下步驟:
步驟A:數據預處理,用于對人物的社交網絡數據進行清洗、篩選和替換,形成包括多個單詞的集合;
步驟B:候選標簽的導出,依次對所述集合內的單詞進行讀入并判斷,形成包括話題標簽、單詞候選標簽和詞組候選標簽的候選標簽集;
步驟C:興趣標簽的提取,包括以下步驟,
-C1:候選標簽TF值的確定:依次對每個所述話題標簽、單詞候選標簽和詞組候選標簽進行讀入并統計相同候選標簽出現的次數,作為該候選標簽的TF值;
-C2:候選標簽IDF值的計算:讀入文檔庫,設文檔庫中有n篇文檔,對于每個候選標簽w,文檔庫中有m篇文檔包含候選標簽w,則候選標簽w的IDF值為:IDF=log(n/m+1);候選標簽w的TFIDF值為:TFIDF=TF×IDF;
-C3:根據候選標簽的TFIDF值進行排序,若TFIDF值最高的前H個候選標簽中有h個話題標簽,則將該h個話題標簽導出至興趣標簽集中;H為需提取的興趣標簽數量;
-C4:候選標簽之間的權值計算:計算出候選標簽之間的權值矩陣;
-C5:候選標簽的得分計算:初始化每個所述候選標簽w的得分S(w)為1,根據以下公式迭代計算每個候選標簽的得分,直至收斂,
O(j)=∑e(j,k)∈Ew(j,k)
其中,表示w(i,j)候選標簽i和j之間的權值,O(j)表示以節點j為端點的邊的權值和;λ為阻尼系數,取值0.85;e(i,j)表示以節點i和節點j為端點的邊;E為邊集;TFIDF(i)表示節點i代表的候選標簽的TFIDF值;
-C6:興趣標簽集的獲取:對每個所述候選標簽的S(i)進行降序排列,并將前H-h個所述候選標簽導出至興趣標簽集,與所述h個話題標簽形成完成的興趣標簽集。
2.如權利要求1所述的基于社交網絡的人物興趣標簽提取方法,其特征在于,所述步驟A中的數據預處理,依次包括大小寫轉換、分詞、詞性打標、刪除停用詞、刪除俚語、刪除鏈接、刪除表情詞、刪除轉發標識。
3.如權利要求2所述的基于社交網絡的人物興趣標簽提取方法,其特征在于,所述大小寫轉換包括:統一將所述人物的社交網絡數據轉換成小寫;所述分詞包括:將輸入的所述人物的社交網絡數據分割成多個單詞;所述詞性打標包括:用于對每個所述單詞進行詞性打標,便于選擇指定詞性的所述單詞作為候選標簽;所述停用詞包括:沒有實際含義的詞;所述俚語包括:非正式、較口語的語句。
4.如權利要求1所述的基于社交網絡的人物興趣標簽提取方法,其特征在于:所述步驟B中的候選標簽導出,具體包括以下步驟:
步驟B1:若第一個讀入的單詞為話題標簽,其中Twitter中以#開頭,則將所述話題標簽導出至候選標簽集中;
步驟B2:若第一個讀入的單詞為名詞,則將所述單詞導出至所述候選標簽集中;
步驟B3:B31:若第一個讀入的單詞為動詞或形容詞,則繼續判斷后端相鄰的第二個單詞屬性,反之則刪除該單詞;B32:若第二個讀入的單詞為名詞,則將第一個單詞和第二個單詞形成的詞組導入候選標簽集中;若第二個讀入的單詞為形容詞,則繼續判斷后端相鄰的第三個單詞;反之則刪除所述第一個單詞和第二個單詞;B33:若第三個讀入的單詞為名詞,則判斷該名詞是否在候選標簽集中存在,若存在,則刪除候選標簽集中的該名詞,并將所述第一個單詞、第二個單詞和第三個單詞形成的詞組導入候選標簽集中;若不存在,則直接將所述詞組導入候選標簽集中;反之,則刪除所述第一個單詞、第二個單詞和第三個單詞。
5.如權利要求4所述的基于社交網絡的人物興趣標簽提取方法,其特征在于,所述B32中還包括:判斷該名詞是否在候選標簽集中存在,若存在,則刪除標簽集中的該名詞,再將所述第一個單詞和第二個單詞形成的詞組導入候選標簽集中;若不存在,則將所述詞組直接導入候選標簽集中。
6.如權利要求4所述的基于社交網絡的人物興趣標簽提取方法,其特征在于,所述詞組包括:動詞-名詞、形容詞-名詞、動詞-形容詞-名詞。
7.如權利要求1所述的基于社交網絡的人物興趣標簽提取方法,其特征在于,其中步驟C4:候選標簽之間的權值計算包括:將所述候選標簽集作為一張無向有權圖,每個所述候選標簽看做圖中的一個節點,若兩個候選標簽出現在同一條tweet中,則在兩個候選標簽代表的節點之間建立邊,邊上的權值為兩個候選標簽同時出現的tweet的條數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州大學,未經蘇州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810271591.4/1.html,轉載請聲明來源鉆瓜專利網。





