[發明專利]一種基于半監督CBOW的用戶搜索詞主題分類的方法有效
| 申請號: | 201410286532.6 | 申請日: | 2014-06-25 |
| 公開(公告)號: | CN104036010B | 公開(公告)日: | 2017-05-24 |
| 發明(設計)人: | 賀樑;楊河彬;徐曉楓;黃保荃;李明耀;倪敏杰 | 申請(專利權)人: | 華東師范大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 上海麥其知識產權代理事務所(普通合伙)31257 | 代理人: | 董紅曼 |
| 地址: | 200241 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 監督 cbow 用戶 搜索詞 主題 分類 方法 | ||
1.一種基于半監督CBOW的用戶搜索詞主題分類的方法,其特征在于運用半監督CBOW算法對大量未標注和部分已標注的搜索詞建立含有語義、語法和類別信息的詞向量模型,利用詞向量模型的線性組合成查詢向量,然后根據查詢向量進行用戶搜索詞的主題分類,具體按下述步驟進行:
(一)、 詞向量模型的建立
將大量未標注和部分已標注的用戶搜索詞中大于一定閾值的詞匯運用半監督CBOW算法建立一個d維實數空間的詞向量模型;所述已標注的搜索詞為人工標注或規則標注的搜索詞;所述半監督CBOW算法采用由輸入層、隱含層和輸出層構成的三層神經網絡語言模型,輸入層將上下文詞以向量形式輸入隱含層,隱含層將輸入的這些詞的詞向量進行累加;所述神經網絡語言模型采用下述(a)式進行優化,并采用隨機梯度下降法對神經網絡進行最大化求解更新:
(a)
其中:為訓練的用戶搜索詞中所觀察到的詞及其上下文的集合;
為給定詞在上下文出現的概率,其中是給定詞的左邊個詞與右邊詞構成其上下文信息;
為所有訓練數據集當中有分類的集合;
為上下文屬于類別的概率;
為類別信息及上下文的最大化目標比例;
(二)、分類器的建立
由詞向量模型對已標注的用戶搜索詞采用向量加法得到已經標注的搜索詞類別及其維向量,并以維向量作為搜索詞的特征采用SVM或邏輯回歸分類算法得到分類器;所述向量加法由下述(b)式計算:
(b)
其中:為用戶搜索的d維向量,其中由個詞組成;
(三)、新搜索詞的分類
由詞向量模型對新用戶搜索詞按(b)式進行向量加法得到新搜索詞向量,然后以該向量特征由上述建立的分類器進行主題分類。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華東師范大學,未經華東師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410286532.6/1.html,轉載請聲明來源鉆瓜專利網。





