[發明專利]關鍵詞提取方法以及關鍵詞提取裝置有效
| 申請號: | 201710225745.1 | 申請日: | 2017-04-07 |
| 公開(公告)號: | CN108334490B | 公開(公告)日: | 2021-05-07 |
| 發明(設計)人: | 王煦祥;尹慶宇 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F16/33 |
| 代理公司: | 深圳翼盛智成知識產權事務所(普通合伙) 44300 | 代理人: | 黃威 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 關鍵詞 提取 方法 以及 裝置 | ||
1.一種關鍵詞提取方法,其特征在于,包括:
對提取文本的所有分析語句進行分詞操作,以得到所述分析語句的詞語單元;
獲取所述詞語單元的詞語特征、所述詞語單元在對應分析語句中的語句特征、以及所述詞語單元在所述提取文本中的文本特征;以及
對每個分析語句中的詞語單元的詞語特征、語句特征以及文本特征進行特征離散化處理,以獲取所述詞語單元的多個離散化詞語特征;其中使用0和1構成的判斷特征向量對詞語單元對應的離散化詞語特征中的判斷特征進行表示;使用數值特征向量對詞語單元對應的離散化詞語特征中的程度特征進行表示;其中判斷特征向量1表示所述判斷特征為第一判斷狀態,判斷特征向量0表示所述判斷特征為第二判斷狀態;數值特征向量表示所述程度特征的具體數值;以及
基于機器學習算法建立的機器學習模型,使用所述詞語單元的多個離散化詞語特征對每個分析語句進行關鍵詞提取操作。
2.根據權利要求1所述的關鍵詞提取方法,其特征在于,
獲取所述詞語單元的詞語特征的步驟包括:獲取所述詞語單元的詞性特征以及命名實體特征;
獲取所述詞語單元的語句特征的步驟包括:獲取所述詞語單元的詞頻特征、前組合詞詞性特征、后組合詞詞性特征、詞語位置特征以及依存關系特征;
獲取所述詞語單元的文本特征的步驟包括:獲取所述詞語單元的逆文本頻率特征。
3.根據權利要求2所述的關鍵詞提取方法,其特征在于,獲取詞語單元的依存關系特征的步驟包括:
基于依存句法分析,獲取所述詞語單元關聯的依存關系;
根據所述詞語單元關聯的依存關系,確定所述詞語單元關聯的依存弧的指向詞的詞性;以及
根據所述詞語單元關聯的依存關系以及所述詞語單元關聯的依存弧的指向詞的詞性,確定所述詞語單元的依存關系特征。
4.根據權利要求1所述的關鍵詞提取方法,其特征在于,所述機器學習模型通過以下步驟生成:
獲取設定數量的已標注所有詞語單元的詞語特征、語句特征、文本特征以及關鍵詞的分析語句;以及
基于機器學習算法,使用設定數量的分析語句創建所述機器學習模型。
5.根據權利要求4所述的關鍵詞提取方法,其特征在于,所述基于機器學習算法,使用設定數量的分析語句創建所述機器學習模型的步驟具體為:
基于最大熵算法,使用設定數量的分析語句創建所述機器學習模型。
6.根據權利要求1所述的關鍵詞提取方法,其特征在于,所述對提取文本的所有分析語句進行分詞操作,以得到所述分析語句的詞語單元的步驟包括:
對提取文本的所有分析語句進行分詞操作,以得到所述分析語句的詞語預備單元;以及
對所述詞語預備單元進行去停用詞操作,以得到所述分析語句的詞語單元。
7.一種關鍵詞提取裝置,其特征在于,包括:
分詞操作模塊,用于對提取文本的所有分析語句進行分詞操作,以得到所述分析語句的詞語單元;
特征獲取模塊,用于獲取所述詞語單元的詞語特征、所述詞語單元在對應分析語句中的語句特征、以及所述詞語單元在所述提取文本中的文本特征;以及
關鍵詞提取模塊,用于基于機器學習算法建立的機器學習模型,使用每個分析語句中的詞語單元的詞語特征、語句特征以及文本特征,對每個分析語句進行關鍵詞提取操作;
其中所述關鍵詞提取模塊包括:
離散化詞語特征獲取單元,用于對每個分析語句中的詞語單元的詞語特征、語句特征以及文本特征進行特征離散化處理,以獲取所述詞語單元的多個離散化詞語特征;其中使用0和1構成的判斷特征向量對詞語單元對應的離散化詞語特征中的判斷特征進行表示;使用數值特征向量對詞語單元對應的離散化詞語特征中的程度特征進行表示;其中判斷特征向量1表示所述判斷特征為第一判斷狀態,判斷特征向量0表示所述判斷特征為第二判斷狀態;數值特征向量表示所述程度特征的具體數值;以及
關鍵詞提取單元,用于基于機器學習算法建立的機器學習模型,使用所述詞語單元的多個離散化詞語特征對每個分析語句進行關鍵詞提取操作。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710225745.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:文本核心詞識別方法和裝置
- 下一篇:文本分析方法、裝置、計算設備及存儲介質





