[發明專利]一種確定文本關鍵詞的方法及裝置有效
| 申請號: | 201611100002.3 | 申請日: | 2016-12-02 |
| 公開(公告)號: | CN108153752B | 公開(公告)日: | 2022-02-11 |
| 發明(設計)人: | 杜晗 | 申請(專利權)人: | 騰訊科技(北京)有限公司 |
| 主分類號: | G06F16/9536 | 分類號: | G06F16/9536;G06F16/955 |
| 代理公司: | 北京派特恩知識產權代理有限公司 11270 | 代理人: | 王花麗;張穎玲 |
| 地址: | 100080 北京市海淀區海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 確定 文本 關鍵詞 方法 裝置 | ||
本發明公開了一種確定文本關鍵詞的方法及裝置,其中所述方法還包括:確定待處理的文本;根據所述文本的標識信息確定瀏覽所述文本的用戶的標識信息;根據所述用戶的標識信息確定所述用戶的標簽,所述用戶的標簽是基于所述用戶之前閱讀的文本的關鍵詞和/或用戶行為進行統計得到的;將所述用戶的標簽確定為所述文本的關鍵詞。
技術領域
本發明涉及互聯網技術,尤其涉及一種確定文本關鍵詞的方法及裝置。
背景技術
新聞是一種以記敘為主的文體,有如同記敘文一樣的基本要素,但由于各種部分的內容要求不同,故其各個部分的概述要點不盡相同。新聞必須具備時間、地點、人物、事件、原因(包括經過、結果)等五個要素。新聞的關鍵詞(標簽)對用戶了解新聞概要是非常有幫助的,而且還能在一定程度上反映該新聞的類別,例如反腐、民生、金融、經濟、房產、汽車、養生、教育等等。
一般來說,新聞關鍵詞的要求是準確、清晰、恰當、貼切。如圖1所示,相關技術中確定新聞數據庫中新聞關鍵詞的方式一般包括兩種,第一種是通過人工方式11確定關鍵詞,第二種是抽取文章詞匯的方式12,即抽取文章出現較多的詞匯作為關鍵詞。其中人工方式一般采用下面的方法來實現:
1)核心話題法。抓住語段核心話題詞語,記敘類語段抓敘述的對象(人、事),議論類語段抓取中心論點或中心話題,而說明類語段可以抓取說明對象。
2)關鍵語句法。篩選出語段中的關鍵句,如針對核心話題的核心陳述句、或總起或總結的概括性中心句,抓住這類關鍵句就易于篩選出關鍵詞。
3)結構層次法。任何語段都表現為一定的思路層次,如并列式語段關鍵詞通常出現在多層次中,遞進式語段關鍵詞通常出現在最后層次中,折式語段關鍵詞通常出現在轉折句中,總分語段關鍵詞通常出現在總說句中。
4)語段中反復出現的詞語往往是關鍵詞語。
而抽取文章詞匯的方式是采用上述人工方式的第4)種方式。由此可見,現有技術的缺點在于:第一種,人工方式對于數百萬篇新聞的數據量來說顯得效率比較低下;第二種,抽取文章詞匯的方式常常無法發現隱含信息,比如新聞標題是“紀檢委打掉XX省打老虎”,傳統的詞匯抽取的方式無法識別出“反腐”,“國內時政”等隱含關鍵詞,而且確定的關鍵詞不準確且比較單一,無法從多個維度來描述新聞。
發明內容
有鑒于此,本發明實施例為解決現有技術中存在的至少一個問題而提供一種確定文本關鍵詞的方法及裝置,通過用戶閱讀過的優質新聞的關鍵詞來補充長尾新聞的關鍵詞,從而解決了識別新聞關鍵詞不準確的問題。
本發明實施例的技術方案是這樣實現的:
第一方面,本發明實施例提供一種確定文本關鍵詞的方法,所述方法包括:
確定待處理的文本;
根據所述文本的標識信息確定瀏覽所述文本的用戶的標識信息;
根據所述用戶的標識信息確定所述用戶的標簽,所述用戶的標簽是基于所述用戶之前閱讀的文本的關鍵詞和/或用戶行為進行統計得到的;
將所述用戶的標簽確定為所述文本的關鍵詞。
第二方面,本發明實施例提供一種確定文本關鍵詞的裝置,所述裝置包括第一確定單元、第二確定單元、第三確定單元和第四確定單元,其中:
所述第一確定單元,用于確定待處理的文本;
所述第二確定單元,用于根據所述文本的標識信息確定瀏覽所述文本的用戶的標識信息;
所述第三確定單元,用于根據所述用戶的標識信息確定所述用戶的標簽,所述用戶的標簽是基于所述用戶之前閱讀的文本的關鍵詞和/或用戶行為進行統計得到的;
所述第四確定單元,用于將所述用戶的標簽確定為所述文本的關鍵詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(北京)有限公司,未經騰訊科技(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611100002.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種機載設備地圖數據庫飛行期間主動更新方法
- 下一篇:推薦方法、裝置和系統





