[發明專利]一種基于TextRank的應用偏好文本分類方法在審
| 申請號: | 201911106117.7 | 申請日: | 2019-11-13 |
| 公開(公告)號: | CN111061869A | 公開(公告)日: | 2020-04-24 |
| 發明(設計)人: | 王海廷;楊從安 | 申請(專利權)人: | 北京數字聯盟網絡科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/284 |
| 代理公司: | 北京慶峰財智知識產權代理事務所(普通合伙) 11417 | 代理人: | 周小平 |
| 地址: | 100088 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 textrank 應用 偏好 文本 分類 方法 | ||
1.一種基于TextRank的應用偏好文本分類方法,其特征在于,包括如下步驟:
S1、根據TextRank算法,生成每個應用的關鍵詞字段,構成第一關鍵詞庫;
S2、根據多個二級分類,為每個二級分類標記一個種子關鍵詞;
S3、根據種子關鍵詞,在第一關鍵詞庫中模糊檢索包含所述種子關鍵詞的應用,并將所述包含種子關鍵詞的應用打上二級分類;
S4、再次使用TextRank算法,對所有二級分類下的所有應用的種子關鍵詞進行全量計算,生成所述多個二級分類下的第二關鍵詞庫;
S5、再次遍歷應用表,對每一個關鍵詞字段中的內容與第二關鍵詞庫進行字符串相似度匹配,如果相似度低于預設閾值,則刪除所述關鍵詞字段對應的應用與當前二級分類之間的關聯。
2.根據權利要求1所述的一種基于TextRank的應用偏好文本分類方法,其特征在于,
所述多個二級分類為應用分類領域公認的75個分類。
3.根據權利要求1所述的一種基于TextRank的應用偏好文本分類方法,其特征在于,
所述預設閾值為70%或75%。
4.根據權利要求1所述的一種基于TextRank的應用偏好文本分類方法,其特征在于,所述方法進一步包括:
S6、遍歷完所述應用表后,重新生成第二關鍵詞庫,重復步驟S1-S5。
5.根據權利要求4所述的一種基于TextRank的應用偏好文本分類方法,其特征在于,所述方法進一步包括:
S7、根據最終的生成結果,人工抽查準確度情況,如果效果不理想,繼續再次迭代步驟S1-S5。
6.一種電子設備,包括:存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,其特征在于,所述處理器運行所述計算機程序時執行以實現如權利要求1-5任一項所述的方法。
7.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述程序被處理器執行時實現如權利要求1-5中任一項所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京數字聯盟網絡科技有限公司,未經北京數字聯盟網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911106117.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:地下障礙物凍結探摸清障方法
- 下一篇:一種環保混凝土墻板及其制作方法





