[發明專利]一種標簽的生成方法及裝置在審
| 申請號: | 201611225841.8 | 申請日: | 2016-12-27 |
| 公開(公告)號: | CN106776571A | 公開(公告)日: | 2017-05-31 |
| 發明(設計)人: | 龐偉 | 申請(專利權)人: | 北京奇虎科技有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30;G06F9/44 |
| 代理公司: | 北京鼎佳達知識產權代理事務所(普通合伙)11348 | 代理人: | 王偉鋒,劉鐵生 |
| 地址: | 100088 北京市西城區新*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 標簽 生成 方法 裝置 | ||
技術領域
本發明涉及一種數據處理技術領域,特別是涉及一種標簽的生成方法及裝置。
背景技術
標簽是信息標識,是相關性很強的關鍵字,能夠描述對應的實物、軟件、著作等等,是以便于檢索和分享。應用搜索引擎,是指提供搜索和下載應用程序APP的軟件,能夠根據標識APP的APP標簽在現有的數百萬個APP中,搜索符合用戶需求的多個APP。
目前,現有通過標簽挖掘方法建立搜索引擎,可以準確得到用戶需求的APP。從APP簡介和標題中得到能夠反映APP內容信息的屬性標簽。將APP簡介和標題合并在一起,從中抽取類別標簽,并計算標簽權重,選擇權重較大的標簽為APP標簽。但是開發者為了提供APP的展現機會,往往提交大量的與APP相關性較弱的APP簡介,導致APP簡介中存在無關的作弊文字較多,使得生成的APP標簽不能有效地標識對應的APP。
發明內容
有鑒于此,本發明提供一種標簽的生成方法及裝置,主要目的在于提高APP標簽標識APP的有效性。
依據本發明一個方面,提供了一種標簽的生成方法,包括:
獲取應用文本語料;
提取所述應用文本語料中的詞項;
根據預置訓練參數,按照主題模型訓練所述詞項;
根據所述主題模型的訓練結果,生成標簽。
依據本發明另一方面,還提供了一種標簽的生成裝置,包括:
獲取單元,用于獲取應用文本語料;
提取單元,用于提取所述應用文本語料中的詞項;
訓練單元,用于根據預置訓練參數,按照主題模型訓練所述詞項;
生成單元,用于根據所述主題模型的訓練結果,生成標簽。
借由上述技術方案,本發明實施例提供的技術方案至少具有下列優點:
本發明提供的一種標簽的生成方法及裝置,與現有技術相比,本發明通過獲取應用文本語料,然后提取應用文本語料中的詞項,再根據預置訓練參數,按照主題模型訓練詞項,最后根據主題模型的訓練結果,生成標簽,能夠訓練應用文本語料的詞項,獲取各個詞項的能夠標識應用文本語料的概率,選取概率較大的詞項,能夠提高標簽標識應用文本語料的有效性。
上述說明僅是本發明技術方案的概述,為了能夠更清楚了解本發明的技術手段,而可依照說明書的內容予以實施,并且為了讓本發明的上述和其它目的、特征和優點能夠更明顯易懂,以下特舉本發明的具體實施方式。
附圖說明
通過閱讀下文優選實施方式的詳細描述,各種其他的優點和益處對于本領域普通技術人員將變得清楚明了。附圖僅用于示出優選實施方式的目的,而并不認為是對本發明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
圖1示出了本發明實施例一提供的一種標簽的生成方法流程圖;
圖2示出了本發明實施例二提供的另一種標簽的生成方法流程圖;
圖3示出了本發明實施例三提供的一種標簽的生成裝置組成框圖;
圖4示出了本發明實施例四提供的另一種標簽的生成裝置組成框圖;
圖5示出了本發明實施例四提供的提取單元的組成框圖;
圖6示出了本發明實施例四提供的生成單元的組成框圖。
具體實施方式
下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應當理解,可以以各種形式實現本公開而不應被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠將本公開的范圍完整的傳達給本領域的技術人員。
本發明實施例一提供了一種標簽的生成方法,如圖1所示,該方法包括:
101、獲取應用文本語料。
其中,所述應用文本語料為生成標簽提供文字基礎,是標簽文字的主要來源。例如,獲取APP的標簽,應用文本語料通常選取APP的摘要,摘要中包括APP的題目,簡要的解釋說明,以及推薦理由等等,本發明實施例不做具體限定。APP摘要能夠充分體現用于文本語料的內容。
102、提取應用文本語料中的詞項。
其中,所述詞項是指詞語或者詞組,也是應用文本語料中的特征詞語。對應用文本語料進行分詞處理,得到應用文本語料的各個分詞。可以將應用文本語料的各個分詞作為應用文本語料的詞項。但是并不是所有應用文本語料中的分詞都是特征詞語,所以還需要設置特征詞語的篩選規則,從應用文本語料中篩選出特征詞語。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇虎科技有限公司,未經北京奇虎科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611225841.8/2.html,轉載請聲明來源鉆瓜專利網。





