[發明專利]文本中詞語分類方法、言語創造性評價方法和系統有效
| 申請號: | 201810757336.0 | 申請日: | 2018-07-11 |
| 公開(公告)號: | CN109241276B | 公開(公告)日: | 2022-03-08 |
| 發明(設計)人: | 沈汪兵;邵美玲 | 申請(專利權)人: | 河海大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/289;G06F40/216 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 常虹 |
| 地址: | 210098*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 詞語 分類 方法 言語 創造性 評價 系統 | ||
1.文本中詞語分類方法,其特征在于,包括如下步驟;
(1)分行讀取文本,以正則方式分割每行文本數據,過濾標點符號和數字,獲得短語和詞語;
(2)將步驟(1)獲得的短語和詞語進一步切分,并過濾停用詞,獲得簡單詞語,設共獲得L個簡單詞語;統計每個簡單詞語的詞頻;
(3)設置分類參數K[k,limit],其中k為頻次參數,limit為詞頻限制參數;詞頻高于k的詞語中選擇詞頻最高的前limit個設置為候選主題;對L個簡單詞語依次判斷屬于哪個候選主題,進行初步分類,設分為M類,M≤limit;
(4)對分類后的結果,選擇每一類中詞頻最高的詞語作為本類的主題;
(5)對每一類詞語,遍歷本類中所有詞語,判斷是否屬于本類主題,如果屬于本類的主題,則劃分到所述主題下;如果不屬于本類主題,劃分到低頻詞集合中;
(6)對低頻詞集合使用word2vec.model作進一步劃分;
(7)統計分類結果,得到P類。
2.根據權利要求1所述的文本中詞語分類方法,其特征在于,所述正則方式分割每行文本數據,包括定義特定字符及特定字符的組合,組成規則字符串;搜索文本匹配一個或多個規則字符串,對文本數據進行過濾。
3.根據權利要求1所述的文本中詞語分類方法,其特征在于,所述步驟(2)采用結巴分詞對短語和詞語進一步切分。
4.根據權利要求1所述的文本中詞語分類方法,其特征在于,初步分類之后還包括用戶自主提升分類精確度,所述用戶自主提升分類精確度為:設計相似字文本和相似詞文本,對初步分類后的M類詞語進行合并,得到N類,N≤M;
所述步驟(4)為:對用戶自主提升分類精確度后的結果,選擇每一類中詞頻最高的詞語作為本類的主題。
5.根據權利要求1所述的文本中詞語分類方法,其特征在于,步驟(4)中選擇每一類中詞頻最高的詞語,且詞頻大于設定的頻次參數k時,該詞語才被設為本類的主題,否則本類所有詞語都劃分到低頻詞集合中。
6.言語創造性評價方法,其特征在于,包括如下步驟:
(S1)獲取用戶輸入的言語文本;
(S2)采用權利要求1-5中任一項所述的文本中詞語分類方法對言語文本進行分類;
(S3)根據言語文本分類結果,計算原創性、流暢性、變通性統計結果,得到所述用戶的創造性評價結果;所述原創性為當前用戶輸入的某個詞語在所有用戶群體輸入的詞語中出現的頻次;
所述流暢性為言語分類結果中所有類別的詞語個數之和;
所述變通性為言語分類結果中的類別數。
7.言語創造性評價系統,其特征在于,包括數據導入模塊、數據處理模塊、運行模塊和輸出模塊;所述數據導入模塊用于接收用戶輸入的言語文本;所述數據處理模塊采用權利要求1-5中任一項所述的文本中詞語分類方法對言語文本進行分類;所述運行模塊根據言語文本分類結果,計算原創性、流暢性、變通性統計結果,得到所述用戶的創造性評價結果;輸出模塊用于輸出或存儲中間結果和最終結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河海大學,未經河海大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810757336.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于自然語言處理的文本主題聚類算法
- 下一篇:科研知識管理方法及系統





