[發明專利]用于預測應用功能標簽的方法和設備在審
| 申請號: | 201710224830.6 | 申請日: | 2017-04-07 |
| 公開(公告)號: | CN107169021A | 公開(公告)日: | 2017-09-15 |
| 發明(設計)人: | 紀志偉;孫造詣;張佩 | 申請(專利權)人: | 華為機器有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京龍雙利達知識產權代理有限公司11329 | 代理人: | 王君,肖鸝 |
| 地址: | 523808 廣東省東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 預測 應用 功能 標簽 方法 設備 | ||
1.一種用于預測應用App功能標簽的方法,其特征在于,包括:
獲取描述目標App的目標描述文本;
對所述目標描述文本進行分詞,獲得預測數據;
根據所述預測數據和目標主題模型,生成所述目標App在多個功能標簽下的概率分布,所述多個功能標簽為所述目標主題模型的多個主題。
2.如權利要求1所述的方法,其特征在于,所述對所述目標描述文本進行分詞,獲得預測數據,包括:
對所述目標描述文本進行分詞,獲得分詞結果;
過濾所述分詞結果中的停用詞、非法字符、在所述目標描述文本中出現頻次小于n次的詞匯或字符長度小于一個中文字符的詞匯中的至少一種,獲得所述預測數據,n為整數,且n≥1。
3.如權利要求2所述的方法,其特征在于,在所述獲取目標應用App的目標描述文本之前,所述方法還包括:
獲取至少兩個App的基本信息,所述基本信息包括描述文本;
將第一分詞詞庫輸入至分詞系統中,并采用所述分詞系統對所述至少兩個App的描述文本進行分詞,獲得訓練數據;
采用所述訓練數據進行主題建模,生成候選主題模型;
采用所述多個功能標簽替換所述候選主題模型的所述多個主題,生成所述目標主題模型,其中,所述多個功能標簽是根據所述候選主題模型輸出的詞分布確定的。
4.如權利要求3所述的方法,其特征在于,所述方法還包括:
將所述多個主題下的關鍵詞添加至所述第一分詞詞庫中,獲得更新后的第一分詞詞庫。
5.根據權利要求4所述的方法,所述更新后的第一分詞詞庫還包括所述至少兩個App的名稱以及所述分詞系統未能分出的詞。
6.如權利要求4或5所述的方法,其特征在于,所述對所述目標描述文本進行分詞,獲得分詞結果,包括:
將所述更新后的第一分詞詞庫輸入至所述分詞系統中,并采用所述分詞系統對所述目標描述文本進行分詞,獲得所述分詞結果。
7.如權利要求3至6中任一項所述的方法,其特征在于,所述獲取至少兩個App的基本信息,包括:
獲取所述至少兩個App對應在第一應用市場中的至少兩個第一App的基本信息;
根據所述至少兩個第一App的基本信息,獲取所述至少兩個App對應在第二應用市場中的至少兩個第二App的基本信息,其中,所述至少兩個第一App與所述至少兩個第二App一一對應,且所述至少兩個第一App中的第i個第一App與所述至少兩個第二App中的第i個第二App的匹配度大于或等于匹配閾值,i為整數,且i≥1。
將所述至少兩個第一App中的第i個第一App的基本信息和所述至少兩個第二App中的第i個第二App的基本信息作為所述至少兩個App中的第i個App的基本信息。
8.權利要求3至7中任一項所述的方法,其特征在于,所述基本信息還包括名稱和/或圖標。
9.一種用于預測應用App功能標簽的設備,其特征在于,包括:
數據采集單元,用于獲取描述目標App的目標描述文本;
數據預處理單元,用于對所述目標描述文本進行分詞,獲得預測數據;
模型輸出單元,用于根據所述預測數據和目標主題模型,生成所述目標App在多個功能標簽下的概率分布,所述多個功能標簽為所述目標主題模型的多個主題。
10.如權利要求9所述的設備,其特征在于,所述數據預處理單元用于:
對所述目標描述文本進行分詞,獲得分詞結果;
過濾所述分詞結果中的停用詞、非法字符、在所述目標描述文本中出現頻次小于n次的詞匯或字符長度小于一個中文字符的詞匯中的至少一種,獲得所述預測數據,n為整數,且n≥1。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為機器有限公司,未經華為機器有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710224830.6/1.html,轉載請聲明來源鉆瓜專利網。





