[發(fā)明專利]文本中詞語(yǔ)分類方法、言語(yǔ)創(chuàng)造性評(píng)價(jià)方法和系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201810757336.0 | 申請(qǐng)日: | 2018-07-11 |
| 公開(kāi)(公告)號(hào): | CN109241276B | 公開(kāi)(公告)日: | 2022-03-08 |
| 發(fā)明(設(shè)計(jì))人: | 沈汪兵;邵美玲 | 申請(qǐng)(專利權(quán))人: | 河海大學(xué) |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35;G06F40/289;G06F40/216 |
| 代理公司: | 南京蘇高專利商標(biāo)事務(wù)所(普通合伙) 32204 | 代理人: | 常虹 |
| 地址: | 210098*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本 詞語(yǔ) 分類 方法 言語(yǔ) 創(chuàng)造性 評(píng)價(jià) 系統(tǒng) | ||
本發(fā)明公開(kāi)了一種文本中詞語(yǔ)分類方法、言語(yǔ)創(chuàng)造性評(píng)價(jià)方法和系統(tǒng),其中文本中詞語(yǔ)分類方法包括如下步驟;1、分行讀取文本,以正則方式分割每行文本數(shù)據(jù),獲得短語(yǔ)和詞語(yǔ);2、將步驟1獲得的短語(yǔ)和詞語(yǔ)采用結(jié)巴分詞進(jìn)一步切分,獲得簡(jiǎn)單詞語(yǔ);3、設(shè)置分類參數(shù),根據(jù)詞頻得到候選主題,進(jìn)行初步分類;4、選擇每一類中詞頻最高的詞語(yǔ)作為本類的主題;5、對(duì)每一類詞語(yǔ),遍歷本類中所有詞語(yǔ),判斷是否屬于本類主題,如果是,則劃分到所述主題下;否則劃分到低頻詞集合中;6、對(duì)低頻詞集合使用word2vec.model作進(jìn)一步劃分;7、統(tǒng)計(jì)分類結(jié)果。該詞語(yǔ)分類方法適用于詞匯或詞語(yǔ)獨(dú)立或孤立出現(xiàn),而不是以篇章或句子形式出現(xiàn)的場(chǎng)景。
技術(shù)領(lǐng)域
本發(fā)明屬于數(shù)據(jù)處理、機(jī)器學(xué)習(xí)與分類領(lǐng)域,具體涉及一種文本中詞語(yǔ)的分類方法,以及言語(yǔ)創(chuàng)造性評(píng)價(jià)方法和系統(tǒng)。
背景技術(shù)
分類(Classification)、估計(jì)(Estimation)、預(yù)測(cè)(Prediction)、相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or association rules)、聚類(Clustering)、描述和可視化(Description and Visualization)、復(fù)雜數(shù)據(jù)類型挖掘(Text/Web/圖形圖像/視頻/音頻等)都屬于數(shù)據(jù)挖掘技術(shù)。分類是一種基本的機(jī)器學(xué)習(xí)任務(wù)。通過(guò)事物的分類分析可以確定其類別或彼此間的關(guān)聯(lián)性,能夠根據(jù)事物特征的相似性或相異性將相似、相近或者相異的事物分別歸并或劃分到合適的類別或組內(nèi)。
在已有的技術(shù)中,基于TF-IDF(Term Frequency–Inverse Document Frequency,詞頻-逆文本頻率指數(shù))的向量空間模型文本相似度計(jì)算方法是使用最廣泛的文本相似度計(jì)算方法,這種方法主要以詞語(yǔ)或單詞在文本中出現(xiàn)的頻率以及在文本集中出現(xiàn)的該詞的頻率來(lái)表征詞的權(quán)重,通過(guò)計(jì)算向量之間的余弦相似度來(lái)計(jì)算文本間的相似度,由于該方法忽略了文本中詞項(xiàng)的含義,因而也就無(wú)法分辨出同義詞與多義詞,而同義詞與多義詞對(duì)于計(jì)算文檔相似度具有重要的意義。此外,對(duì)于大多數(shù)文本數(shù)據(jù)集而言,詞項(xiàng)的數(shù)目和文本數(shù)目通常都很大,加之采用詞頻向量模型必須將文本轉(zhuǎn)換為詞項(xiàng)數(shù)目與文本數(shù)目大致相當(dāng)?shù)木仃嚕医?jīng)過(guò)轉(zhuǎn)換后的矩陣的行數(shù)為文本集內(nèi)的詞項(xiàng)數(shù),列數(shù)為文本集中的文本數(shù)量,兩者通常都是幾千或幾萬(wàn)維,這樣下來(lái)矩陣維度就很高且結(jié)構(gòu)很稀疏。
基于詞項(xiàng)語(yǔ)義來(lái)考察文本相似度的方法在文本表示模型上多數(shù)沿用了詞頻向量模型,通過(guò)引入外部詞典(如WordNet、HowNet、同義詞詞林等)來(lái)計(jì)算詞項(xiàng)之間的相似度,但該方法無(wú)法解決詞典中未登錄詞的語(yǔ)義問(wèn)題,而且這種方法很難移植到?jīng)]有語(yǔ)義詞典的應(yīng)用中。
LDA(Latent Dirichlet Allocation)模型是另一種廣泛應(yīng)用于分類的技術(shù),主要是使語(yǔ)料或材料庫(kù)中提供的各個(gè)詞語(yǔ)或詞匯最終聚集到不同類別的主題下。聚集到相同主題或同一類別中的各個(gè)詞語(yǔ)或詞匯通常在語(yǔ)義上彼此之間的關(guān)系更加緊密或近似,而聚集到不同類別或不同主題下的詞語(yǔ)或詞匯之間的聯(lián)系更加薄弱或沒(méi)有明顯關(guān)聯(lián)。這種方法的優(yōu)點(diǎn)在于它避免了對(duì)文本材料中各個(gè)詞語(yǔ)或詞匯之間的語(yǔ)義相似性或關(guān)聯(lián)性進(jìn)行復(fù)雜的運(yùn)算,而且不依賴于外部詞典,就能夠獲得或者提供足夠有價(jià)值的有關(guān)詞語(yǔ)或詞匯之間語(yǔ)義相似性的信息。但這種方法最顯著的不足就是它一般是針對(duì)分析較長(zhǎng)篇幅的語(yǔ)料或文本中詞匯與詞語(yǔ)的語(yǔ)義相似度。在實(shí)際生活中,許多詞匯的呈現(xiàn)是由于情境或即時(shí)交流的限制,通常是單個(gè)的詞匯或詞語(yǔ),孤立的方式出現(xiàn)或者與少數(shù)幾個(gè)詞語(yǔ)相伴出現(xiàn)。因此,上述方法可能并不適合具有短篇或者非篇章的詞匯語(yǔ)義相似性的分析。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于河海大學(xué),未經(jīng)河海大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810757336.0/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





