[發(fā)明專利]預(yù)測趨勢詞的方法和裝置有效
| 申請?zhí)枺?/td> | 201710969459.6 | 申請日: | 2017-10-18 |
| 公開(公告)號: | CN107908616B | 公開(公告)日: | 2022-01-28 |
| 發(fā)明(設(shè)計)人: | 李樹海 | 申請(專利權(quán))人: | 北京京東尚科信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F16/9532;G06Q30/06 |
| 代理公司: | 中原信達(dá)知識產(chǎn)權(quán)代理有限責(zé)任公司 11219 | 代理人: | 張一軍;楊曉偉 |
| 地址: | 100195 北京市海淀區(qū)杏石口路6*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 預(yù)測 趨勢 方法 裝置 | ||
本發(fā)明公開了一種預(yù)測趨勢詞的方法和裝置,涉及計算機(jī)技術(shù)領(lǐng)域。該方法的一具體實施方式包括:確定預(yù)定時間段內(nèi)的搜索詞的突發(fā)度;將突發(fā)度滿足預(yù)定規(guī)則的搜索詞確定為趨勢詞。該實施方式能夠量化不同搜索詞的趨勢程度,并根據(jù)趨勢程度確定趨勢詞,且不依賴于時間窗口的取值,從而可以更加系統(tǒng)、準(zhǔn)確地預(yù)測趨勢詞,為不同領(lǐng)域的商業(yè)活動提供有價值的參考和指導(dǎo)數(shù)據(jù)。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機(jī)技術(shù)領(lǐng)域,尤其涉及一種預(yù)測趨勢詞的方法和裝置。
背景技術(shù)
在用戶訪問網(wǎng)站、搜索數(shù)據(jù)或者通過電商平臺進(jìn)行網(wǎng)上購物等的場景下,搜索關(guān)鍵詞是用戶獲取數(shù)據(jù)信息的一個重要入口。將大量用戶在一定時間內(nèi)的搜索行為看作一個整體,通過一定的方法就可以觀測到整體關(guān)鍵詞搜索量的變化和走勢,從而發(fā)掘搜索熱點(diǎn)與趨勢。也就是說,大量用戶的搜索活動為網(wǎng)站信息提供商、搜索引擎服務(wù)提供商或電商平臺等網(wǎng)絡(luò)服務(wù)平臺提供了重要的統(tǒng)計信息:大家正在關(guān)心什么,最希望瀏覽或了解哪些信息。
搜索量較大的搜索詞可以認(rèn)為是當(dāng)前的熱點(diǎn),而實際上及時發(fā)現(xiàn)搜索詞的早期趨勢更有意義,并且市場對于后者的需求更為強(qiáng)烈。因為在某些詞成為熱點(diǎn)的時候,再采取一些商業(yè)行為或措施已經(jīng)為時已晚;在某些搜索詞成為熱點(diǎn)之前,及時發(fā)現(xiàn)這些詞的早期趨勢變得更有價值和作用,預(yù)測即將來臨的熱點(diǎn)可以為各個不同商業(yè)領(lǐng)域提供極有價值的參考和指導(dǎo)。例如,如果在甲 作家獲得諾貝爾獎成為熱點(diǎn)之前,便發(fā)現(xiàn)搜索詞“甲作家” 成為較明顯的早期趨勢詞,該信息可以有效指導(dǎo)商業(yè)行為,比如指導(dǎo)電商平臺的采銷部門及時采購甲 作家所著的書籍;或者指導(dǎo)閱讀平臺或者讀書應(yīng)用等及時推送甲 作家的書籍等。
在一般時間序列的預(yù)測方面,一些經(jīng)典時間序列預(yù)測模型,如自回歸模型、自回歸移動平均模型,以及差分自回歸移動平均模型等,都可以用于預(yù)測時序數(shù)據(jù)的頻率變化,但是對于預(yù)測關(guān)鍵詞搜索量趨勢而言,應(yīng)用這些模型還有著巨大的挑戰(zhàn)。因為這些模型雖然在一定程度上可以預(yù)測關(guān)鍵詞搜索量,但無法指出相應(yīng)的搜索詞是否可以成為早期趨勢。
一般用于判斷早期趨勢的基本方法是利用統(tǒng)計信息(如:均值、標(biāo)準(zhǔn)差等)進(jìn)行判別,但必須根據(jù)具體情況使用合適的時間窗口,靈活性受到較大限制。該檢測方式也被認(rèn)為是相對變化率判別,即根據(jù)關(guān)鍵詞搜索量值的相對變化率判斷時間單元之間的增減程度等。
一般地,Query(查詢)往往在某些時間段出現(xiàn)高潮,一個高潮在 Query趨勢的時間序列中可以直觀地反映為一個脈沖,具體而言就是某些關(guān)鍵詞搜索量的激增以及驟減,即相對變化率較高。從實際意義上解釋,Query的查詢高潮極有可能對應(yīng)著現(xiàn)實世界中的一個相關(guān)事件。因此,Query時序趨勢檢測也就是在Query查詢頻率時間序列中檢測脈沖。
對于給定的l個預(yù)測值{q1,q2,……,ql},一個Query時間序列在時間區(qū)間[b,e]中存在一個趨勢事件,當(dāng)且僅當(dāng):
(1)1≤b≤e≤l;
(2)時間區(qū)間[b,e]內(nèi)的值在統(tǒng)計意義上足夠構(gòu)成相應(yīng)時間序列上的一個脈沖,也就是這些值遠(yuǎn)大于時間序列上的平均值。
時序趨勢的判定規(guī)則是區(qū)域內(nèi)的移動平均值比整個時間序列上的平均值大出δ個標(biāo)準(zhǔn)差。實際應(yīng)用此規(guī)則時,δ常常取值為3。以下描述了具體的時序趨勢詞檢測方法和主要步驟。
INPUT Query查詢頻率時間序列Q={q1,q2,……,ql}
OUTPUT若存在趨勢,則輸出相應(yīng)的時序區(qū)間。
步驟1:以滑動窗口大小w計算時間序列Q的移動平均值MAw;
步驟2:計算整個時間序列上的統(tǒng)計量,設(shè)置判定閾值為:
threshold=mean(MAw)+δ*std(MAw);
步驟3:得到有趨勢事件的時序為{ti|MAw(i)threshold}。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京京東尚科信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司,未經(jīng)北京京東尚科信息技術(shù)有限公司;北京京東世紀(jì)貿(mào)易有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710969459.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法、程序以及記錄介質(zhì)
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法
- 基于時間序列預(yù)測模型適用性量化的預(yù)測模型選擇方法
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法
- 分類預(yù)測方法及裝置、預(yù)測模型訓(xùn)練方法及裝置
- 幀內(nèi)預(yù)測的方法及裝置
- 圖像預(yù)測方法及裝置、電子設(shè)備和存儲介質(zhì)
- 文本預(yù)測方法、裝置以及電子設(shè)備
- 模型融合方法、預(yù)測方法、裝置、設(shè)備及存儲介質(zhì)





