[發(fā)明專利]一種站點(diǎn)主題的確定方法、裝置和電子設(shè)備在審
| 申請?zhí)枺?/td> | 201811627076.1 | 申請日: | 2018-12-28 |
| 公開(公告)號: | CN111382566A | 公開(公告)日: | 2020-07-07 |
| 發(fā)明(設(shè)計(jì))人: | 弓利鵬 | 申請(專利權(quán))人: | 北京搜狗科技發(fā)展有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F16/9535 |
| 代理公司: | 北京潤澤恒知識產(chǎn)權(quán)代理有限公司 11319 | 代理人: | 莎日娜 |
| 地址: | 100084 北京市海淀區(qū)中關(guān)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 站點(diǎn) 主題 確定 方法 裝置 電子設(shè)備 | ||
本發(fā)明實(shí)施例提供了一種站點(diǎn)主題的確定方法、裝置和電子設(shè)備,其中,所述方法包括:獲取各站點(diǎn)的主題關(guān)聯(lián)信息,將各主題關(guān)聯(lián)信息轉(zhuǎn)換為對應(yīng)的詞向量并確定各詞向量的重要度信息;依據(jù)各詞向量和對應(yīng)的重要度信息,確定站點(diǎn)主題矩陣;依據(jù)所述站點(diǎn)主題矩陣,確定各站點(diǎn)的站點(diǎn)主題表示向量。由于詞向量可以包括多個維度的特征,因此依據(jù)詞向量確定站點(diǎn)的主題表示向量,能夠表達(dá)更全面、粒度更新的信息;而且詞向量的各個維度的特征可以相互耦合,還能夠使得站點(diǎn)的主題向量更加符合站點(diǎn)主題的實(shí)際分布情況,站點(diǎn)主題更準(zhǔn)確。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,特別是涉及一種站點(diǎn)主題的確定方法、裝置和電子設(shè)備。
背景技術(shù)
隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,以及搜索引擎的技術(shù)的發(fā)展,用戶可以通過搜索平臺進(jìn)行信息查詢,例如查詢某個詞的讀音、含義,某個人物簡介,某個問題的答案等等。
其中,搜索引擎為快速的搜索某個查詢詞對應(yīng)的搜索結(jié)果,可以先確定該查詢詞對應(yīng)的站點(diǎn)主題,然后再在該站點(diǎn)主題對應(yīng)的所有站點(diǎn)中,查找搜索結(jié)果。目前業(yè)內(nèi)確定站點(diǎn)主題的方法是人為預(yù)設(shè)多個類別的站點(diǎn)主題,如軍事類、生活類、體育類等等,然后針對某一個站點(diǎn),通過計(jì)算該站點(diǎn)下各頁面與預(yù)設(shè)主題的似然度確定各個頁面的主題向量,將各個頁面的主題向量合并后作為該站點(diǎn)的主題表示。首先,人工提前設(shè)定站點(diǎn)主題的類別是不全面的,其次,預(yù)設(shè)的不同類別的站點(diǎn)主題是互斥的,即每個站點(diǎn)只能屬于一個類別的主題,但實(shí)際中一個站點(diǎn)可能包含多個主題如同時包括體育類和新聞類兩個主題,確定的站點(diǎn)主題不準(zhǔn)確。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供一種站點(diǎn)主題的確定方法,以提高站點(diǎn)主題確定的準(zhǔn)確性和全面性。
相應(yīng)的,本發(fā)明實(shí)施例還提供了一種站點(diǎn)主題的確定裝置和一種電子設(shè)備,用以保證上述方法的實(shí)現(xiàn)及應(yīng)用。
為了解決上述問題,本發(fā)明實(shí)施例公開了一種站點(diǎn)主題的確定方法,具體包括:獲取各站點(diǎn)的主題關(guān)聯(lián)信息,將各主題關(guān)聯(lián)信息轉(zhuǎn)換為對應(yīng)的詞向量并確定各詞向量的重要度信息;依據(jù)各詞向量和對應(yīng)的重要度信息,確定站點(diǎn)主題矩陣;依據(jù)所述站點(diǎn)主題矩陣,確定各站點(diǎn)的站點(diǎn)主題表示向量。
可選地,所述主題關(guān)聯(lián)信息包括以下至少一種:站點(diǎn)的標(biāo)題、站點(diǎn)的搜索查詢詞、站點(diǎn)的錨文字。
可選地,通過以下至少一種方式,獲取各站點(diǎn)的主題關(guān)聯(lián)信息:通過挖掘全網(wǎng)所有站點(diǎn)對應(yīng)網(wǎng)頁頁面的錨文字,確定各站點(diǎn)的錨文字;通過對搜索日志的分析,挖掘各站點(diǎn)的搜索查詢詞;通過對各站點(diǎn)對應(yīng)網(wǎng)頁頁面的分析,挖掘各站點(diǎn)的標(biāo)題。
可選地,所述將各主題關(guān)聯(lián)信息轉(zhuǎn)換為對應(yīng)詞向量,包括:針對一個站點(diǎn),對所述站點(diǎn)的各主題關(guān)聯(lián)詞進(jìn)行分詞處理,得到對應(yīng)的詞片段;依據(jù)所述詞片段確定關(guān)鍵詞,并將相同的關(guān)鍵詞進(jìn)行合并;基于合并后的關(guān)鍵詞查詢映射信息,確定各合并后的關(guān)鍵詞對應(yīng)的詞向量;其中,所述映射信息表征關(guān)鍵詞和詞向量的映射關(guān)系。
可選地,所述確定各詞向量的重要度信息,包括:采用詞頻-逆文本頻率指數(shù)TF-IDF算法,計(jì)算各詞向量的重要度信息。
可選地,所述依據(jù)各詞向量和對應(yīng)的重要度信息,確定站點(diǎn)主題矩陣,包括:依據(jù)各詞向量和對應(yīng)的重要度信息,對Skip-gram模型進(jìn)行訓(xùn)練;將訓(xùn)練后的Skip-gram模型中隱層的權(quán)重矩陣,確定為站點(diǎn)主題矩陣。
可選地,所述依據(jù)各詞向量和對應(yīng)的重要度信息,對Skip-gram模型進(jìn)行訓(xùn)練,包括:對各站點(diǎn)進(jìn)行獨(dú)熱one-hot編碼,得到各站點(diǎn)對應(yīng)的站點(diǎn)向量;計(jì)算各詞向量與對應(yīng)重要度信息的乘積,得到對應(yīng)的乘積向量;將所述站點(diǎn)向量確定為輸入信息,以及將各乘積向量作為輸出信息;采用所述輸入信息和輸出信息,對Skip-gram模型進(jìn)行訓(xùn)練。
可選地,所述依據(jù)所述站點(diǎn)主題矩陣,確定各站點(diǎn)的站點(diǎn)主題表示向量,包括:針對一個站點(diǎn),依據(jù)所述站點(diǎn)的站點(diǎn)向量從所述站點(diǎn)主題矩陣中查找對應(yīng)的站點(diǎn)主題表示向量。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京搜狗科技發(fā)展有限公司,未經(jīng)北京搜狗科技發(fā)展有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811627076.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種移動通信站點(diǎn)規(guī)劃方法及系統(tǒng)
- 空鐵運(yùn)輸系統(tǒng)
- 多運(yùn)營商站點(diǎn)規(guī)劃方法及裝置
- 一種隨機(jī)接入方法及站點(diǎn)
- 一種公交過需站點(diǎn)的真實(shí)OD的分析方法
- 用于生成物聯(lián)網(wǎng)系統(tǒng)中的站點(diǎn)的配置文件的方法及裝置
- 基于大數(shù)據(jù)分析的配送站點(diǎn)建設(shè)系統(tǒng)及方法
- 一種公交中途站點(diǎn)名稱生成方法及裝置
- 一種公交站點(diǎn)名稱生成方法及裝置
- 一種基于大數(shù)據(jù)分析的配送站點(diǎn)建設(shè)方法





