[發明專利]關鍵詞提取方法以及關鍵詞提取裝置有效
| 申請號: | 201710225745.1 | 申請日: | 2017-04-07 |
| 公開(公告)號: | CN108334490B | 公開(公告)日: | 2021-05-07 |
| 發明(設計)人: | 王煦祥;尹慶宇 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F16/33 |
| 代理公司: | 深圳翼盛智成知識產權事務所(普通合伙) 44300 | 代理人: | 黃威 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 關鍵詞 提取 方法 以及 裝置 | ||
本發明提供一種關鍵詞提取方法,其包括:對提取文本的所有分析語句進行分詞操作,以得到分析語句的詞語單元;獲取詞語單元的詞語特征、詞語單元在對應分析語句中的語句特征、以及詞語單元在所述提取文本中的文本特征;基于機器學習算法建立的機器學習模型,使用每個分析語句中的詞語單元的詞語特征、語句特征以及文本特征,對每個分析語句進行關鍵詞提取操作。本發明還提供一種關鍵詞提取裝置,本發明的關鍵詞提取方法及關鍵詞提取裝置使用詞語單元的詞語特征、語句特征以及文本特征建立機器學習模型,從而對每個分析語句進行關鍵詞提取操作,進而提高了關鍵詞提取的準確度。
技術領域
本發明涉及文本處理領域,特別是涉及一種關鍵詞提取方法及關鍵詞提取裝置。
背景技術
信息的表達方式隨著信息時代的發展而日益多樣,其中利用文本來表達信息的方式是不可替代的。隨著網絡的發展,線上文本信息的數量呈現爆炸式增長,手工獲取所需文本信息的難度日益增大,因此如何高效地獲取信息成為一個十分重要的課題。
為了能夠有效地處理海量的文本數據,研究人員在文本分類、文本聚類、自動文摘和信息檢索等方向進行了大量的研究,而這些研究都涉及到一個關鍵而又基礎的問題,即如何獲取文本中的關鍵詞。因此,在自然語言處理和信息檢索等任務中,關鍵詞提取技術已逐漸成為熱點研究問題。現有的研究成果中,關鍵詞提取技術已被廣泛應用于新聞服務、查詢服務等領域,并被證明能夠在信息檢索、自動摘要、文本分類等任務中發揮重要作用。與此同時,海量信息處理也對關鍵詞提取技術提出了新的挑戰。
關鍵詞是對文本主題信息的精煉,高度概括了文本的主要內容,能幫助用戶快速理解文本的主旨,易于使用戶判斷出文本是否為自己所需的內容,從而提高信息訪問和信息搜索的效率。不僅如此,由于關鍵詞精煉、簡潔的特點,可以利用關鍵詞以較低的復雜度進行文本相關性的計算,從而高效地進行文本分類、文本聚類和信息檢索等處理。在這些應用中,使用最廣泛的是信息檢索,用戶在搜索引擎或問答系統中輸入關鍵詞,系統將提供這些關鍵詞對應的文本或問題答案返回給用戶。
在查詢問句中,關鍵詞代表了用戶問句的主體含義。在問題分析時,提取問題中的關鍵詞對于理解問題的語義至關重要。在信息檢索中,需要從用戶輸入的問句中提取出對檢索有用的關鍵詞。因此,關鍵詞提取是問答系統的基礎,如何快速準確地從問句中提取出關鍵詞對于提升問答系統的性能至關重要。
現在一些常用的機器學習方法也逐漸應用到關鍵詞提取領域中,現有的基于機器學習的關鍵詞提取方法首先需要選取候選詞的特征,然后根據提取出的特征使用機器學習算法進行學習。這里的候選詞的特征一般分為兩類:詞語出現頻率以及詞語第一次出現的位置等數據內部特征,以及關鍵詞的語義相似度以及是否為搜索引擎的搜索日志等外部資源特征。
但是由于某些候選詞特征與關鍵詞提取操作的關聯性較差,因此并非選擇越多的候選詞特征進行機器學習,對應關鍵詞提取方法提取的關鍵詞就會更加準確,因此現有的基于機器學習的關鍵詞提取方法的關鍵詞提取準確度較為低下。
發明內容
本發明實施例提供一種具有較高關鍵詞提取準確度的關鍵詞提取方法及關鍵詞提取裝置,以解決現有的關鍵詞提取方法及關鍵詞提取裝置的關鍵詞提取準確度較低的技術問題。
本發明實施例提供一種關鍵詞提取方法,其包括:
對提取文本的所有分析語句進行分詞操作,以得到所述分析語句的詞語單元;
獲取所述詞語單元的詞語特征、所述詞語單元在對應分析語句中的語句特征、以及所述詞語單元在所述提取文本中的文本特征;以及
基于機器學習算法建立的機器學習模型,使用每個分析語句中的詞語單元的詞語特征、語句特征以及文本特征,對每個分析語句進行關鍵詞提取操作。
本發明實施例提供一種關鍵詞提取裝置,其包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710225745.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:文本核心詞識別方法和裝置
- 下一篇:文本分析方法、裝置、計算設備及存儲介質





