[發明專利]一種文本數據分析方法、裝置、服務器和存儲介質有效
| 申請號: | 201711346218.2 | 申請日: | 2017-12-15 |
| 公開(公告)號: | CN108090178B | 公開(公告)日: | 2020-08-25 |
| 發明(設計)人: | 謝永恒;劉忠松;火一莽;萬月亮 | 申請(專利權)人: | 北京銳安科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 孟金喆 |
| 地址: | 100044 北京市海淀區西小口*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 數據 分析 方法 裝置 服務器 存儲 介質 | ||
本發明公開了一種文本數據分析方法、裝置、服務器和存儲介質,該方法包括:對預先確定的主題詞進行擴展,確定主題詞向量;根據所述主題詞向量確定訓練文本特征向量;根據所述主題詞向量將待測試文本轉換為測試文本特征向量;根據所述訓練文本特征向量和測試文本特征向量對所述待測試文本進行分類。本發明實現了通過構建完備的主題詞向量對訓練文本特征向量和測試文本特征向量進行確定,并根據完備的主題詞向量確定的特征向量對待測試文本進行分類,提高文本分類的準確度。
技術領域
本發明涉及智能信息處理技術領域,尤其涉及一種文本數據分析方法、裝置、服務器和存儲介質。
背景技術
隨著互聯網技術的快速發展,大部分的信息都是以文本的形式進行存儲和展現。因此,為了便于信息的存儲、管理和查詢,對文本數據進行分類顯得尤為重要。
目前對于文本分類的文本數據分析方法主要有兩大類,即基于鏈接分析的方法和基于內容分析的方法?;阪溄臃治龅姆椒ㄖ饕峭ㄟ^文檔頁面間的鏈接關系來直接或者間接的做出評價,這種方法適用范圍廣但準確率不高。而基于內容的方法是在確定分類的主題詞后,利用待分析文本數據本身的內容特征與主題詞之間的相似度對文本進行分類,相比于基于鏈接分析的方法,其識別的準確率較高。
然而,通常情況下,能夠反映某一主題詞含義的詞匯很多,通過人為確定主題詞向量的方式極易導致表述主題詞的詞匯不夠全面。因此在主題詞向量不完備的情況下,會降低文本內容特征與主題詞之間的相似度,從而大大降低文本分類的準確度。
發明內容
本發明實施例提供了一種文本數據分析方法、裝置、服務器和存儲介質,能夠構建完備的主題詞向量,提高分類的準確度。
第一方面,本發明實施例提供了一種文本數據分析方法,包括:
對預先確定的主題詞進行擴展,確定主題詞向量;
根據所述主題詞向量確定訓練文本特征向量;
根據所述主題詞向量將待測試文本轉換為測試文本特征向量;
根據所述訓練文本特征向量和測試文本特征向量對所述待測試文本進行分類。
第二方面,本發明實施例提供了一種文本數據分析裝置,包括:
主題詞向量確定模塊,用于對預先確定的主題詞進行擴展,確定主題詞向量;
訓練文本特征向量確定模塊,用于根據所述主題詞向量確定訓練文本特征向量;
測試文本特征向量確定模塊,用于根據所述主題詞向量將待測試文本轉換為測試文本特征向量;
分類模塊,用于根據所述訓練文本特征向量和測試文本特征向量對所述待測試文本進行分類。
第三方面,本發明實施例提供了一種服務器,包括:
一個或多個處理器;
存儲器,用于存儲一個或多個程序;
當所述一個或多個程序被所述一個或多個處理器執行,使得所述一個或多個處理器實現本發明任意實施例所述的文本數據分析方法。
第四方面,本發明實施例提供了一種計算機可讀存儲介質,其上存儲有計算機程序,該程序被處理器執行時實現本發明任意實施例所述的文本數據分析方法。
本發明通過對預先確定的主題詞進行擴展,得到能夠反映主題詞含義的多個相關詞匯,將主題詞及其多個相關詞匯構建完備的主題詞向量,并利用主題詞向量確定訓練文本特征向量以及測試文本特征向量,以此利用訓練文本特征向量對待測試文本進行分類。實現了通過構建完備的主題詞向量對訓練文本特征向量和測試文本特征向量進行確定,并根據完備的主題詞向量確定的特征向量對待測試文本進行分類,提高文本分類的準確度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京銳安科技有限公司,未經北京銳安科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711346218.2/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





