[發明專利]一種資訊數據處理方法及裝置有效
| 申請號: | 201610313209.2 | 申請日: | 2016-05-12 |
| 公開(公告)號: | CN107368489B | 公開(公告)日: | 2020-07-03 |
| 發明(設計)人: | 吳康樂 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/31 |
| 代理公司: | 北京晉德允升知識產權代理有限公司 11623 | 代理人: | 楊移 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 資訊 數據處理 方法 裝置 | ||
1.一種資訊數據處理方法,其特征在于,包括:
獲取待處理資訊數據;
當判定所述待處理資訊數據屬于指定資訊類別時,提取所述待處理資訊數據的主題詞;
將提取出的部分或全部的所述主題詞與所述指定資訊類別對應的關鍵詞進行匹配,以從各所述關鍵詞中,確定與至少一個所述主題詞匹配成功的關鍵詞;
其中,提取所述待處理資訊數據的主題詞,具體包括:
基于TF-IDF算法,對TF-IDF算法中的權重計算公式進行修改;
基于修改后的所述權重計算公式,提取所述待處理資訊數據的主題詞;
所述修改包括以下至少一項:
將所述權重計算公式中的詞頻替換為:所述詞頻與指定詞頻的比值,其中,所述指定詞頻為所述待處理資訊數據中各詞的詞頻中第N高的詞頻,N為不小于2的整數;
將所述權重計算公式中的逆文檔頻率替換為:第一逆文檔頻率與第二逆文檔頻率的差值,其中,所述第一逆文檔頻率為基于所述指定資訊類別的資訊數據集合,計算的逆文檔頻率,所述第二逆文檔頻率為基于任意資訊類別的資訊數據集合,計算的逆文檔頻率。
2.如權利要求1所述的方法,其特征在于,按照如下方式,判定所述待處理資訊數據是否屬于指定資訊類別:
對所述待處理資訊數據進行預處理;
根據預處理后的所述待處理資訊數據,判定所述待處理資訊數據是否屬于指定資訊類別;
所述預處理包括以下至少一項:
全半角歸一化處理、大小寫處理、分詞處理、同義詞處理。
3.如權利要求1所述的方法,其特征在于,按照如下方式,判定所述待處理資訊數據是否屬于指定資訊類別:
通過分類模型,對所述待處理資訊數據進行分類;
根據所述分類結果,判定所述待處理資訊數據是否屬于指定資訊類別;
其中,所述分類模型是采用以下至少一類信息作為樣本訓練出來的:
屬于所述指定資訊類別的資訊數據;
屬于所述指定資訊類別以外的其他資訊類別的資訊數據。
4.如權利要求1所述的方法,其特征在于,提取所述待處理資訊數據的主題詞,具體包括:
對所述待處理資訊數據進行過濾,以過濾掉所述待處理資訊數據中的指定內容;
提取過濾后的所述待處理資訊數據的主題詞;
所述指定內容包括以下至少一種:
所述待處理資訊數據的作者名稱、所述待處理資訊數據的發表機構名稱、所述待處理資訊數據的發表刊物名稱。
5.如權利要求1所述的方法,其特征在于,所述方法還包括:
確定提取出的所述待處理資訊數據的各主題詞的權重;
將提取出的部分所述主題詞與所述指定資訊類別對應的關鍵詞進行匹配,以從各所述關鍵詞中,確定與至少一個所述主題詞匹配成功的關鍵詞,具體包括:
根據提取出的所述待處理資訊數據的各主題詞的權重,從提取出的全部的所述主題詞中,篩選出部分主題詞,其中,所述部分主題詞中的每個主題詞的權重均不小于未被篩選出的任一主題詞的權重;
將所述部分主題詞與所述指定資訊類別對應的關鍵詞進行匹配,以從各所述關鍵詞中,確定與所述部分主題詞中的至少一個主題詞匹配成功的關鍵詞。
6.如權利要求1~5任一項所述的方法,其特征在于,所述指定資訊類別為財經資訊類別,所述各關鍵詞為預定的各股票名稱。
7.如權利要求1~5任一項所述的方法,其特征在于,所述資訊類別是根據資訊數據的主題信息進行劃分的。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610313209.2/1.html,轉載請聲明來源鉆瓜專利網。





