[發明專利]用于預測應用功能標簽的方法和設備在審
| 申請號: | 201710224830.6 | 申請日: | 2017-04-07 |
| 公開(公告)號: | CN107169021A | 公開(公告)日: | 2017-09-15 |
| 發明(設計)人: | 紀志偉;孫造詣;張佩 | 申請(專利權)人: | 華為機器有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京龍雙利達知識產權代理有限公司11329 | 代理人: | 王君,肖鸝 |
| 地址: | 523808 廣東省東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 預測 應用 功能 標簽 方法 設備 | ||
技術領域
本申請涉及應用App領域,并且更具體地,涉及一種用于預測應用(application,App)功能標簽的方法和設備。
背景技術
隨著網絡環境的日益完善、移動互聯網技術的發展,各類移動互聯網應用的需求逐漸被激發,手機App應用市場前景巨大。App不再僅僅具有單一的功能,而是能夠滿足用戶多方面的需求。應用市場上現有的對于App的功能劃分主要還是人工進行的,即由App的應用市場規定App的功能標簽的類別,由App的開發者人工對App打上功能標簽,提交到App的應用市場。但是,這種人工對App打上功能標簽的方法存在很大的主觀性,無法全面刻畫App的功能,同時也很耗費時間。
因此,亟需一種對于多功能的App的更加客觀的分類方法,以更全面的刻畫App的功能。
發明內容
本申請提供一種用于預測應用App功能標簽的方法和設備,能夠實現對多功能的App的更加客觀的分類,更加全面的刻畫App的功能。
第一方面,提供了一種用于預測應用App功能標簽的方法,包括:
獲取描述目標App的目標描述文本;
對該目標描述文本進行分詞,獲得預測數據;
根據該預測數據和目標主題模型,生成該目標App在多個功能標簽下的概率分布,該多個功能標簽為該目標主題模型的多個主題。
可選地,在對該目標描述文本進行分詞時,可以采用NLPIR漢語分詞系統對目標描述文本進行分詞。其中,NLPIR漢語分詞系統又名ICTCLAS2013。
可選地,該目標主題模型可以是潛在狄利克雷分配(latent dirichlet allocation,LDA)模型。
其中,多個可以理解成至少兩個或者至少三個。
本申請實施例的用于預測應用功能標簽的方法,通過對App的標描述文本進行分詞,獲得預測數據,并通過主題模型對預測數據進行處理,可以得到App在多個功能標簽下的概率分布,從而能夠實現對多功能的App的更加客觀的分類,更加全面的刻畫App的功能。并且,由于該方法是利用計算機自動為App打上標簽,告別了人工為App打標簽的繁瑣過程。
在一種可能的實現方式中,該對該目標描述文本進行分詞,獲得預測數據,包括:
對該目標描述文本進行分詞,獲得分詞結果;
過濾該分詞結果中的停用詞、非法字符、在該目標描述文本中出現頻次小于n次的詞匯或字符長度小于一個中文字符的詞匯中的至少一種,獲得該預測數據,n為整數,且n≥1。
在一種可能的實現方式中,在該獲取目標應用App的目標描述文本之前,該方法還可以包括:
獲取至少兩個App的基本信息,該至少兩個App不包括該目標App,該基本信息包括描述文本;
將第一分詞詞庫輸入至分詞系統中,并采用該分詞系統對該至少兩個App的描述文本進行分詞,獲得訓練數據;
采用該訓練數據進行主題建模,生成候選主題模型;
采用該多個功能標簽替換該候選主題模型的該多個主題,生成該目標主題模型,其中,該多個功能標簽是根據該候選主題模型輸出的詞分布確定的。
可選地,采用分詞系統對該至少兩個App的描述文本進行分詞,獲得訓練數據具體可以包括:先采用分詞系統對該至少兩個App的描述文本進行分詞,再過濾該分詞結果中的停用詞、非法字符、在該目標描述文本中出現頻次小于n次的詞匯或字符長度小于一個中文字符的詞匯中的至少一種,獲得該預測數據,n為整數,且n≥1。
在一種可能的實現方式中,該方法還可以包括:將根據該詞分布確定的關鍵詞添加至該第一分詞詞庫中,獲得更新后的第一分詞詞庫。
在一種可能的實現方式中,該更新后的第一分詞詞庫還包括所述至少兩個App的名稱以及所述分詞系統未能分出的詞。
在一種可能的實現方式中,該對該目標描述文本進行分詞,獲得分詞結果,包括:
將該更新后的第一分詞詞庫輸入至該分詞系統中,并采用該分詞系統對該目標描述文本進行分詞,獲得該分詞結果。
通過這樣不斷地更新分析系統,能夠不斷完善分詞系統,提高分詞系統的分詞性能。
在一種可能的實現方式中,該獲取至少兩個App的基本信息,包括:
獲取第一應用市場中至少兩個第一App的基本信息;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為機器有限公司,未經華為機器有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710224830.6/2.html,轉載請聲明來源鉆瓜專利網。





