[發明專利]一種基于機器學習的社交網絡本體構建方法有效
| 申請號: | 201610115254.7 | 申請日: | 2016-02-29 |
| 公開(公告)號: | CN105654144B | 公開(公告)日: | 2019-01-29 |
| 發明(設計)人: | 吳天星;李丞;漆桂林 | 申請(專利權)人: | 東南大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06Q50/00 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 柏尚春 |
| 地址: | 210009 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 機器 學習 社交 網絡 本體 構建 方法 | ||
1.一種基于機器學習的社交網絡本體構建方法,其特征在于,該方法包括如下步驟:
1)從社交網絡抓取標簽構成原始數據集;
2)從所述原始數據集中隨機生成n對標簽,從原始數據集抽取m對具有上下位關系的標簽對構成訓練數據集,n和m的比例保持在3∶1到5∶1之間;然后計算所述訓練數據集中每對標簽的相似性特征值,并把它們加入到訓練數據集之中;
3)使用機器學習中的RandomForest分類模型和十層交叉驗證的方式對所述步驟2)最終得到的訓練數據集進行自動分類后,導出該訓練數據集對應的分類器模型;
4)考慮標簽的前后順序,將原始數據中所有標簽兩兩搭配,得到所有的標簽對,然后利用所述步驟3)中所得的分類器模型對所有的標簽對是否具有上下位關系自動進行判定并標注;
5)抽取出所有被標注為具有上下位關系的標簽對,按照如下規則構建一個有向無環圖,即為社交網絡本體:
a)在構建過程中,如果出現環路,則去除該環路中權值最小的邊;
b)在構建過程中,如果兩個節點之間不止一條路徑,則保留最長的路徑,即保留邊的數目最多的路徑。
2.根據權利要求書1所述的基于機器學習的社交網絡本體構建方法,其特征在于,所述步驟2)中計算訓練數據集中每對標簽的相似性特征值,具體是按如下各公式分別計算用于刻畫標簽之間相似性的6個特征值:
其中,c1,c2為任意兩個標簽,L(c1)表示標簽c1的文本字符串,L(c2)表示標簽c2的文本字符串,LCS(L(c1),L(c2))表示標簽c1,c2的公共字符串長度,|L(c1)|表示標簽c1的字符串長度;
其中,RCS(c1)表示標簽c1的related category集合,RCS(c2)表示標簽c2的relatedcategory集合,|RCS(c1)|表示標簽c1的related category集合中的元素個數,|RCS(c1)∩RCS(c2)|表示標簽c1的related category集合和標簽c2的related category集合的交集的元素個數,標簽c1的related category集合是指:將標簽c1提交到百度知道搜索引擎,獲取搜索結果的前n頁的所有問題,n大于等于10,每一個問題都有標簽category來標注它們,由所有的這些category構成的集合就是標簽c1的related category集合;
其中,rc(c1)表示標簽r在RCS(c1)中的權重,rc(c2)表示r在RCS(c2)中的權重;
其中,TC(c1)為c1的相似性特征向量,TC(c2)為c2的相似性特征向量,TC(c1)i是TC(c1)的第i維的值,TC(c2)i是TC(c2)的第i維的值,n是TC(c1)和TC(c2)的維度;
其中,C(c1)=(c11,c12,….,c1n),c11~c1n是與標簽c1標注過同一個問題的所有標簽,C(c2)=(c21,c22,….,c2n),c21~c2n是與標簽c2標注過同一個問題的所有標簽,C(c1)∩C(c2)表示C(c1)和C(c2)的交集,|C(c1)∩C(c2)|等于C(c1)和C(c2)的集合的交集標簽個數,|C(c1)|表示C(c1)的集合內的標簽個數;
其中,V1(c)表示標簽c在C(c1)的集合中的權重,V2(c)表示標簽c在C(c2)的集合中的權重。
3.根據權利要求2所述的基于機器學習的社交網絡本體構建方法,其特征在于,所述步驟2)中,權重rc(c1)設置為r在RCS(c1)中重復出現的次數,權重rc(c2)設置為r在RCS(c2)中重復出現的次數,權重V1(c)設置為c在C(c1)中重復出現的次數,權重V2(c)設置為c在C(c2)中重復出現的次數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東南大學,未經東南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610115254.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:離散數據處理方法
- 下一篇:基于自然場景統計的無參考立體圖像質量評價方法





