[發明專利]基于文檔的關鍵詞推送方法及裝置有效
| 申請號: | 201710137604.4 | 申請日: | 2017-03-09 |
| 公開(公告)號: | CN106919702B | 公開(公告)日: | 2020-02-11 |
| 發明(設計)人: | 王立寧;陳勁 | 申請(專利權)人: | 北京時間股份有限公司 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/33;G06N3/04;G06N3/08 |
| 代理公司: | 11276 北京市浩天知識產權代理事務所(普通合伙) | 代理人: | 宋菲;劉蘭蘭 |
| 地址: | 100089 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 文檔 關鍵詞 推送 方法 裝置 | ||
本發明公開了一種基于文檔的關鍵詞推送方法及裝置,至少能夠解決現有技術中由于無法根據文本內容中的語義來挖掘關鍵詞而導致推送的關鍵詞過于粗糙,不夠準確的技術問題。該方法包括:每當獲取到文檔時,將獲取到的文檔所對應的文檔內容輸入預設的神經網絡模型;獲取神經網絡模型的輸出結果,根據輸出結果確定文檔的關鍵詞,并對關鍵詞進行推送;獲取用戶終端針對推送的關鍵詞觸發的反饋結果,根據反饋結果對預設的神經網絡模型進行增強學習;根據增強學習的學習結果對預設的神經網絡模型進行調整。
技術領域
本發明涉及通信技術領域,具體涉及一種基于文檔的關鍵詞推送方法及裝置。
背景技術
隨著互聯網的飛速發展,越來越多的用戶習慣于通過網絡獲取各類信息。其中,在用戶獲取文檔信息時,為了方便用戶的搜索和了解,會針對該文檔信息推送對應的關鍵詞,以方便用戶根據關鍵詞快速了解文檔內容,從而為用戶的閱讀、搜索提供便利。
在現有的關鍵詞推送方式中,通常采用如下方式實現:首先,對文檔中的內容進行分詞處理;然后,從分詞處理的結果中提取出現頻率較高、或重要程度較高的詞匯作為關鍵詞進行推送。
但是,發明人在實現本發明的過程中發現現有技術中的上述方案至少存在下述缺陷:通過簡單的分詞提取的方式只能將文檔中明確出現的詞匯確定為關鍵詞,因此,無法從語義層面進行分析,從而無法對文檔的內容進行準確地總結和概括,進而導致的推送的關鍵詞無法準確地反映文檔的核心內容。
發明內容
鑒于上述問題,提出了本發明以便提供一種克服上述問題或者至少部分地解決上述問題的基于文檔的關鍵詞推送方法及裝置。
根據本發明的一個方面,提供了一種基于文檔的關鍵詞推送方法,包括:每當獲取到文檔時,將獲取到的文檔所對應的文檔內容輸入預設的神經網絡模型;獲取所述神經網絡模型的輸出結果,根據所述輸出結果確定所述文檔的關鍵詞,并對所述關鍵詞進行推送;獲取用戶終端針對推送的所述關鍵詞觸發的反饋結果,根據所述反饋結果對所述預設的神經網絡模型進行增強學習;根據所述增強學習的學習結果對所述預設的神經網絡模型進行調整。
可選地,所述將獲取到的文檔所對應的文檔內容輸入預設的神經網絡模型的步驟之前,進一步包括:對所述獲取到的文檔進行預處理,將預處理結果作為所述文檔對應的文檔內容;其中,所述預處理包括以下中的至少一個:分詞處理、以及詞向量轉換處理。
可選地,所述根據所述輸出結果確定所述文檔的關鍵詞的步驟具體包括:根據預設的篩選策略對所述輸出結果進行篩選,將篩選結果確定為所述文檔的關鍵詞;其中,所述篩選策略包括以下中的至少一個:根據詞性進行篩選的策略;以及,根據詞頻進行篩選的策略。
可選地,所述對所述關鍵詞進行推送的步驟之后進一步包括:當監測到用戶終端針對所述關鍵詞觸發的點擊事件時,將所述點擊事件記錄到用戶日志文件中;則所述獲取用戶終端針對推送的所述關鍵詞觸發的反饋結果的步驟具體包括:查詢所述用戶日志文件中是否包含與所述關鍵詞對應的點擊事件;當查詢結果為否時,確定所述用戶終端針對推送的所述關鍵詞觸發的反饋結果為第一類反饋結果;其中,所述第一類反饋結果對應的關鍵詞用于作為負樣本提供給所述神經網絡模型進行增強學習;當查詢結果為是時,確定所述用戶終端針對推送的所述關鍵詞觸發的反饋結果為第二類反饋結果;其中,所述第二類反饋結果對應的關鍵詞用于作為正樣本提供給所述神經網絡模型進行增強學習。
可選地,當查詢結果為是時,進一步包括:確定所述用戶日志文件中包含的與所述關鍵詞對應的點擊事件的次數,根據次數確定第二類反饋結果對應的結果分值;其中,所述結果分值用于確定對應的負樣本的樣本權重。
可選地,所述獲取用戶終端針對推送的所述關鍵詞觸發的反饋結果的步驟具體包括:每隔預設的時間間隔獲取一次用戶終端針對推送的所述關鍵詞觸發的反饋結果;和/或,每當所述用戶日志文件中錄入點擊事件時觸發與所述點擊事件對應的通知消息,通過訂閱所述通知消息獲取用戶終端針對推送的所述關鍵詞觸發的反饋結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京時間股份有限公司,未經北京時間股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710137604.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種分布數據的處理方法及裝置
- 下一篇:電影信息搜索方法及裝置





