[發明專利]一種從文章中提取關鍵詞的方法在審
| 申請號: | 201310581543.2 | 申請日: | 2013-11-18 |
| 公開(公告)號: | CN103559310A | 公開(公告)日: | 2014-02-05 |
| 發明(設計)人: | 徐波 | 申請(專利權)人: | 廣東利為網絡科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 廣州新諾專利商標事務所有限公司 44100 | 代理人: | 華輝 |
| 地址: | 510630 廣東省廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文章 提取 關鍵詞 方法 | ||
1.一種從文章中提取關鍵詞的方法,其特征在于,包括:
對文章進行預處理,得到文本的詞語集合,所述預處理包括去除停用詞、進行詞性過濾以及同義詞鏈構建;
選取同義詞鏈中的一個代表詞,分別計算出所述詞語的詞頻值,區域位置值及分詞距離次序值;
根據所述詞語的詞頻值,區域位置值及分詞距離次序值,計算出所述詞語的權重值,并根據所述權重值判定是否將所述詞語作為所述文章的關鍵詞。
2.根據權利要求1所述的方法,其特征在于,所述分別計算出所述詞語的詞頻值,區域位置值及分詞距離次序值,包括:
計算出所述詞語在所述詞語集合中的出現次數,該結果為所述詞頻值;
對文章的結構進行分類,按照不同類別分別統計所述詞語在該類別中的出現次數,該結果為所述區域位置值,所述類別包括標題類、摘要類、段首類、段中類以及結尾類;
計算出所述詞語第一次出現在文章中出現時與文本開頭的距離值,該結果為所述分詞距離次序值。
3.根據權利要求2所述的方法,其特征在于,所述按照不同類別分別統計所述詞語在該類別中的出現次數,包括:
根據公式loci=c×BTi+d×ZYi+e×DSi+f×DZi+g×JWi計算出所述區域位置值,其中,loci是所述詞語i的區域位置值,BTi是第i個所述詞語在標題中的出現次數,ZYi是第i個所述詞語在摘要中的出現次數,DSi是第i個所述詞語在段首中的出現次數,DZi是第i個所述詞語在段中的出現次數,JWi是第i個所述詞語在結尾中的出現次數,c、d、e、f、h為預設置的常數因子。
4.根據權利要求2所述的方法,其特征在于,所述計算出所述詞語第一次出現在文章中出現時與文本開頭的距離值,包括:
根據公式disi=a×Wi+b來計算所述詞語的距離值,其中,dis表示距離值,Wi表示第i個所述詞語在文本中出現的次序,a、b均為可調節的常數因子。
5.根據權利要求1—4任一項所述的方法,其特征在于,所述根據所述詞語的詞頻值,區域位置值及分詞距離次序值,計算出所述詞語的權重值,包括:
根據公式Weighti=α×tfi+β×loci+γ×disi計算出所述詞語的權重值,其中,weighti是第i個所述詞語的權重,tfi是其詞頻值,loci是其區域位置值,disi是其分詞距離次序值,α、β、γ是預設置的調節因子。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東利為網絡科技有限公司,未經廣東利為網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310581543.2/1.html,轉載請聲明來源鉆瓜專利網。





