[發明專利]一種給應用標注標簽的方法和裝置有效
| 申請號: | 201710227588.8 | 申請日: | 2017-04-10 |
| 公開(公告)號: | CN106951571B | 公開(公告)日: | 2021-06-22 |
| 發明(設計)人: | 潘岸騰 | 申請(專利權)人: | 阿里巴巴(中國)有限公司 |
| 主分類號: | G06F16/13 | 分類號: | G06F16/13;G06F16/14 |
| 代理公司: | 北京展翼知識產權代理事務所(特殊普通合伙) 11452 | 代理人: | 屠長存 |
| 地址: | 310052 浙江省杭州市濱江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 應用 標注 標簽 方法 裝置 | ||
1.一種給應用標注標簽的方法,其包括:
從預置應用庫里的每個已存在應用的應用描述信息中提取特征詞信息;
將具有相同標簽的多個已存在應用的相應特征詞信息合并,作為該標簽的特征詞信息;
確定每個標簽對歸屬其的每個特征詞的第一偏好度,其中,第一偏好度pt,j與特征詞j在標簽t上的權重ft,j成正比例關系,并且與特征詞j在從預置應用庫里的所有已存在應用的各自應用描述信息中所提取的全部特征詞集合中出現的概率sj成反比例關系;
從待標注標簽的新應用的應用描述信息中提取特征詞信息;
基于所述第一偏好度和提取出的新應用的特征詞信息,確定該新應用對標簽庫里的每個標簽的第二偏好度;
根據該第二偏好度按預設方式從標簽庫里選取相應的1個或多個標簽給該新應用標注上。
2.根據權利要求1所述的方法,其特征在于在從預置應用庫里的每個已存在應用的應用描述信息中提取特征詞信息的步驟中,所述特征詞信息包含特征詞和該特征詞對其所屬應用的權重,首先對應用描述信息進行分詞處理以提取出特征詞,然后統計每個特征詞出現的概率作為該特征詞對其所屬應用的權重。
3.根據權利要求2所述的方法,其特征在于在將具有相同標簽的多個已存在應用的相應特征詞信息合并,作為該標簽的特征詞信息的步驟中,所述標簽的特征詞信息包括特征詞和該特征詞在該標簽上的權重,在合并過程中相同的多個特征詞合并為1個特征詞,對每個特征詞在該標簽上的權重的計算方法如下:
且i∈A,j∈w
其中:
ft,j表示特征詞j在標簽t上的權重;
wi,j表示特征詞j對預置應用庫里具有標簽t的已存在應用i的權重;
A表示預置應用庫里的具有標簽t的應用集合;
W表示歸屬于應用集合A中的已存在應用的特征詞集合;
n表示應用集合A里的應用數量;
m表示特征詞集合W里的特征詞數量。
4.根據權利要求1所述的方法,其特征在于在確定每個標簽對歸屬其的每個特征詞的第一偏好度的步驟中,確定所述第一偏好度的方法如下:
且i∈AA,j∈Aw
其中:
wi,j表示特征詞j對預置應用庫里的已存在應用i的權重;
AA表示預置應用庫里的所有已存在應用的集合;
Aw表示從所有已存在應用的各自應用描述信息中所提取的所有特征詞的集合;
n表示應用集合AA里的應用數量;
m表示特征詞集合Aw里的特征詞數量。
5.根據權利要求1所述的方法,其特征在于在確定新應用對標簽庫里的每個標簽的第二偏好度的步驟中,確定所述第二偏好度的方法如下:
且j∈AM
其中:
ri,t表示新應用i對標簽t的第二偏好度;
pt,j表示標簽t對特征詞j的第一偏好度;
wi,j表示從新應用i的應用描述信息中提取的特征詞j對該新應用i的權重;
AM表示所獲得的歸屬于標簽t的所有特征詞的集合;
m表示歸屬于標簽t的特征詞集合里的特征詞數量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴(中國)有限公司,未經阿里巴巴(中國)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710227588.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種閉環通氣系統及呼吸機
- 下一篇:播放裝置





