[發明專利]一種手機游戲分類方法有效
| 申請號: | 201810018771.1 | 申請日: | 2018-01-09 |
| 公開(公告)號: | CN108228845B | 公開(公告)日: | 2020-10-27 |
| 發明(設計)人: | 董守玲;張榮;陳海棋;董守斌 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06K9/62 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 馮炳輝 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 手機 游戲 分類 方法 | ||
1.一種手機游戲分類方法,其特征在于,包括以下步驟:
1)從網絡上爬取游戲信息,包括數據源名稱、游戲圖標和游戲描述簡介,并保存至數據庫;
2)計算不同數據源的游戲的名稱之間的最大公共子串相似度和游戲圖標之間的顏色分布直方圖相似度,計算游戲描述簡介的句向量相似度,同時利用LDA主題生成模型,即潛在狄利克雷分布主題生成模型,計算得到游戲描述簡介的LDA主題分布相似度,將計算得到的值與設定的閾值相比較,得到不同數據源的同款游戲集合;
3)進行數據標注,使用同款游戲集合的結果,格式為:“游戲名稱#所屬平臺#游戲ID”,然后根據統一的分類標準,將不同數據源的同款游戲分類到所屬標簽;
4)計算各個數據源的游戲描述簡介文本的句向量和主題向量;
5)以游戲名稱、游戲所屬平臺和平臺原有的分類標簽作為輸入特征,進行梯度提升決策樹訓練,即GBDT模型訓練,得到GBDT葉子節點特征向量;
6)將計算得到的游戲描述簡介的句向量、主題向量、GBDT葉子節點向量進行特征融合;
7)將融合后的特征向量作為輸入特征,采用機器學習算法進行訓練,基于統一的分類標準,將不同數據源的游戲分為所屬的分類標簽。
2.根據權利要求1所述的一種手機游戲分類方法,其特征在于:在步驟2)中,需要計算不同數據源的游戲的名稱之間的最大公共子串相似度和游戲圖標之間的顏色分布直方圖相似度,計算游戲描述簡介的句向量相似度和LDA主題分布相似度;
游戲名稱的最大公共子串相似度計算公式如下:
其中,左邊NameSim表示游戲名稱的相似度;右邊GameName表示游戲名稱,用下標i,j來表示兩個不同的游戲名稱;分子中的LCS表示最大公共子串,用來衡量兩個字符串的重合程度,分子表示計算兩個游戲名稱的最大公共子串;分母中的Len(GameName)表示計算得到游戲名稱長度,分母表示先計算兩個游戲名稱GameNamei和GameNamej的字符串長度,再比較兩個游戲名稱長度,取兩者較小的一個;
通過比較兩個手游名稱的最大公共子串長度和兩個手游名稱長度的最小值,得到一個值區間在[0,1]的比值;
游戲圖標的顏色分布直方圖相似度計算采用向量相似度匹配中巴氏系數計算,公式如下:
RGBSim=cosine(RGBHistograma,RGBHistogramb)
其中,用等號左邊RGBSim表示計算得到的圖標直方圖余弦相似度的值,RGBHistogram表示游戲圖標的顏色分布直方圖向量,用下標a和b來表示兩個不同游戲的圖標;
游戲描述簡介的句向量相似度,計算公式如下:
Snt2vecSim=cosine(Snt2Vectorp,Snt2Vectorq)
其中,左邊Snt2vecSim表示計算后得到的兩個游戲描述簡介的句向量相似度,Snt2Vector表示每個游戲描述簡介文本經過計算后的句向量,用下標p和q來表示兩個不同游戲的描述簡介,采用句向量相似度的計算方法,直接計算兩個描述簡介文本的句向量的余弦相似度;
cosine表示余弦相似度,計算公式如下:
其中,Ak、Bk表示n維向量;將計算得到的相似度值與設定的閾值相比較,判斷兩個游戲是否是相似的,滿足規則過濾要求的兩個游戲就判斷為是同款的游戲;其中,判斷兩個游戲是否屬于同款的規則過濾要求,具體如下:
a、如果游戲名稱的最大公共子串的相似度越接近1,則認為兩個游戲越相似;
b、計算游戲圖標的余弦相似度,計算得到的值越接近1,則認為兩個游戲的圖標越相似;
c、計算得到的游戲描述簡介的句向量相似度越接近1,則認為兩個游戲越相似,同時計算得到的LDA主題分布向量相似度,如果兩個游戲不屬于同類主題,則它們一定不是同款的。
3.根據權利要求1所述的一種手機游戲分類方法,其特征在于:在步驟4)中,需要計算不同數據源各個游戲的描述簡介的句子向量以及計算每個游戲描述簡介的主題向量,得到每個游戲描述簡介在不同主題上的概率值,進一步得出不同主題類型下的主題詞分布。
4.根據權利要求1所述的一種手機游戲分類方法,其特征在于:在步驟5)中,以游戲名稱、游戲所屬平臺和平臺原有的分類標簽作為輸入特征,進行梯度提升決策樹訓練,得到GBDT葉子節點特征向量,其具體過程為:
由于爬取到的原始數據中,手游的游戲名稱會存在差別,采用jieba分詞,統計輸出tf-idf值最大的前m款手游的名稱,m至少為2000,將分詞結果與原平臺所屬的分類標簽和平臺名稱組合為“游戲名稱#平臺名稱#分類標簽”的形式,通過計算得到作為GBDT的輸入特征的向量,然后進行GBDT模型訓練;
GBDT模型中,每一棵樹,只有一個葉子節點是輸出1,其它輸出0,每棵樹輸出1的葉子節點,就代表一種組合特征,將這些0和1連接起來得到多維向量;
再將上述得到的輸入特征輸入到模型中經過回歸計算得到葉子節點。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810018771.1/1.html,轉載請聲明來源鉆瓜專利網。





