[發明專利]一種多特征融合的關鍵詞提取方法在審
| 申請號: | 201910328467.1 | 申請日: | 2019-04-23 |
| 公開(公告)號: | CN110188344A | 公開(公告)日: | 2019-08-30 |
| 發明(設計)人: | 高楠;李利娟;李偉;祝建明 | 申請(專利權)人: | 浙江工業大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06K9/62 |
| 代理公司: | 杭州斯可睿專利事務所有限公司 33241 | 代理人: | 王利強 |
| 地址: | 310014 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 候選關鍵詞 關鍵詞組 多特征融合 關鍵詞提取 文本 詞性 決策樹分類模型 詞頻 關鍵詞短語 關鍵詞序列 詞頻信息 分類算法 機器學習 結果評估 模型預測 權重信息 屬性信息 特征屬性 信息計算 區分度 新文本 準確率 權重 詞語 跨度 篩選 分類 概率 統計 | ||
1.一種多特征融合的關鍵詞提取方法,其特征在于,所述方法包括以下步驟:
步驟1:從中國知網上學術信息,解析html文件,提取網頁中文本標題、摘要和關鍵詞;
步驟2:對提取的文本進行處理,標題和摘要合并成一個短文本,除去文本中的特殊符號,對文本進行分句處理;
步驟3:利用分詞工具對文本進行分詞和詞性標注得到單詞,對上述單詞進行過濾根據詞性選擇生成候選關鍵詞集合;
步驟4:將文本分成訓練文本和測試文本,根據文本和關鍵詞組信息,對文本中的單詞進行標簽化處理,如果出先在關鍵詞序列中或是關鍵詞組的一部分label=1,否則label=0;
步驟5:統計候選關鍵詞集合中詞語在文本中出現的頻率、句子中出現的頻率、詞語的跨度、詞語的共現情況以及詞語在文本中的位置信息;
步驟6:由上述統計信息利用公式計算得到單詞的各種特征屬性;
步驟7:由訓練文本得到的上述特征屬性信息用C4.5決策樹分類方法訓練關鍵詞分類器;
步驟8:用測試集合中文本單詞的統計屬性對單詞進行預測,得到關鍵詞序列;
步驟9:對得到的關鍵詞計算進行評分;
步驟10:對得到的關鍵詞的序列結合文本信息得到關鍵詞序列擴展后的n-gram關鍵詞組,計算關鍵詞組的得分;
步驟11:將關鍵詞和關鍵詞組根據字符串的編劇距離計算兩個關鍵詞的距離dist。如果dist大于閾值,保留關鍵詞權重更高的一個,得到最終的關鍵詞序列;
步驟12:對關鍵詞序列進行排序獲得topK個關鍵詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工業大學,未經浙江工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910328467.1/1.html,轉載請聲明來源鉆瓜專利網。





