[發(fā)明專利]一種基于預分類的短文本關鍵詞提取方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201710053710.4 | 申請日: | 2017-01-22 |
| 公開(公告)號: | CN106886576B | 公開(公告)日: | 2018-04-03 |
| 發(fā)明(設計)人: | 蔡禹;紀曉陽;孔祥明;張一帆;林成創(chuàng) | 申請(專利權)人: | 廣東廣業(yè)開元科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 廣州嘉權專利商標事務所有限公司44205 | 代理人: | 譚英強 |
| 地址: | 510623 廣東省廣州市天*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 分類 文本 關鍵詞 提取 方法 系統(tǒng) | ||
1.一種基于預分類的短文本關鍵詞提取方法,其特征在于:該方法包括的步驟有:
將短文本全量數(shù)據(jù)集劃分為多個短文本子數(shù)據(jù)集;
采用短文本預分類方式以及通用條數(shù)最優(yōu)值,對多個短文本子數(shù)據(jù)集分別進行關鍵詞特征詞典的生成處理,從而生成得到每一個短文本子數(shù)據(jù)集所對應的關鍵詞特征詞典;
利用每一個關鍵詞特征詞典分別相對應對每一個短文本子數(shù)據(jù)集進行關鍵詞權重系數(shù)的累計計算;
根據(jù)每一個短文本子數(shù)據(jù)集的關鍵詞權重系數(shù)累計計算結果,對短文本全量數(shù)據(jù)集進行關鍵詞提取處理;
所述短文本子數(shù)據(jù)集所對應的關鍵詞特征詞典,其生成步驟包括有:
從短文本子數(shù)據(jù)集中選取出一個包含有s條短文本的短文本微數(shù)據(jù)集,其中,s的數(shù)值為通用條數(shù)最優(yōu)值;
對短文本微數(shù)據(jù)集中所包含的短文本進行分類,然后將屬于同一類別的短文本拼接成相對應的長文本;
采用TF-IDF算法對每一條長文本中的詞語進行TF-IDF值計算,計算出每一條長文本中詞語的TF-IDF值;
根據(jù)預設的第一閾值,對每一條長文本的詞語的TF-IDF值進行閾值判斷,然后將每一條長文本中TF-IDF值大于第一閾值的詞語提取出來;
將提取出來的詞語及其對應的TF-IDF值存儲至關鍵詞特征詞典中時,判斷關鍵詞特征詞典中是否已存儲有該詞語,若否,則將該詞語及其對應的TF-IDF值存儲至關鍵詞特征詞典中;反之,則判斷待存儲的詞語所對應的TF-IDF值是否大于已存儲在關鍵詞特征詞典中的該詞語所對應的TF-IDF值,若是,則采用待存儲的詞語所對應的TF-IDF值替換已存儲在關鍵詞特征詞典中的該詞語所對應的TF-IDF值,反之,則不改變已存儲在關鍵詞特征詞典中的該詞語所對應的TF-IDF值。
2.根據(jù)權利要求1所述一種基于預分類的短文本關鍵詞提取方法,其特征在于:所述通用條數(shù)最優(yōu)值,其確定獲取步驟包括有:
計算每一個短文本子數(shù)據(jù)集所對應的條數(shù)最優(yōu)值,然后從計算得出的所有條數(shù)最優(yōu)值中選取數(shù)值最大的條數(shù)最優(yōu)值作為通用條數(shù)最優(yōu)值。
3.根據(jù)權利要求2所述一種基于預分類的短文本關鍵詞提取方法,其特征在于:所述短文本子數(shù)據(jù)集所對應的條數(shù)最優(yōu)值,其計算步驟包括有:
從短文本子數(shù)據(jù)集中選取出一個包含有n條短文本的短文本微數(shù)據(jù)集,其中,n值小于等于s0,s0表示為短文本子數(shù)據(jù)集所包含的短文本的總條數(shù);
根據(jù)選取出的短文本微數(shù)據(jù)集,生成該短文本子數(shù)據(jù)集所對應的關鍵詞特征詞典;
判斷當前生成的關鍵詞特征詞典與前一次生成的關鍵詞特征詞典之間的差異是否滿足預設的判定標準,若是,則將前一次的n值作為該短文本子數(shù)據(jù)集所對應的條數(shù)最優(yōu)值;反之,則對當前n值進行減小處理后得到新的n值,利用新的n值返回重新執(zhí)行上述從短文本子數(shù)據(jù)集中選取出一個包含有n條短文本的短文本微數(shù)據(jù)集這一步驟。
4.根據(jù)權利要求3所述一種基于預分類的短文本關鍵詞提取方法,其特征在于:所述對當前n值進行減小處理后得到新的n值這一步驟,其具體為:將當前n值與10的相除結果作為新的n值。
5.根據(jù)權利要求1-4任一項所述一種基于預分類的短文本關鍵詞提取方法,其特征在于:所述對短文本子數(shù)據(jù)集進行關鍵詞權重系數(shù)的累計計算,其所采用的計算公式為:
Wi=ai*wi,i=1、2、……、m
其中,m表示為關鍵詞特征詞典中所包含的詞語的總個數(shù),Wi表示第i個關鍵詞的權重系數(shù)累計計算結果,ai表示在關鍵詞特征詞典中所存儲的第i個詞語在短文本子數(shù)據(jù)集所包含的所有短文本中所出現(xiàn)的次數(shù),wi表示為在關鍵詞特征詞典中所存儲的第i個詞語所對應的TF-IDF值。
6.根據(jù)權利要求1-4任一項所述一種基于預分類的短文本關鍵詞提取方法,其特征在于:所述根據(jù)每一個短文本子數(shù)據(jù)集的關鍵詞權重系數(shù)累計計算結果,對短文本全量數(shù)據(jù)集進行關鍵詞提取處理這一步驟,其具體為:
對每一個短文本子數(shù)據(jù)集的關鍵詞權重系數(shù)累計計算結果進行降序,從而獲得每一個短文本子數(shù)據(jù)集的關鍵詞排序結果,然后對所有短文本子數(shù)據(jù)集的關鍵詞排序結果進行匯總計算,接著對匯總計算結果進行排序和閾值過濾操作,從而得到短文本全量數(shù)據(jù)集的關鍵詞提取結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東廣業(yè)開元科技有限公司,未經(jīng)廣東廣業(yè)開元科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710053710.4/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。





