[發(fā)明專利]一種文章的分類方法、裝置及計算機系統(tǒng)在審
| 申請?zhí)枺?/td> | 202011217423.0 | 申請日: | 2020-11-04 |
| 公開(公告)號: | CN112328788A | 公開(公告)日: | 2021-02-05 |
| 發(fā)明(設(shè)計)人: | 李飛飛 | 申請(專利權(quán))人: | 上海豹云網(wǎng)絡(luò)信息服務(wù)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/289;G06F40/205;G06F40/247;G06F40/284 |
| 代理公司: | 北京市萬慧達律師事務(wù)所 11111 | 代理人: | 段曉玲 |
| 地址: | 200051 上海市長*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文章 分類 方法 裝置 計算機系統(tǒng) | ||
本申請公開了一種文章的分類方法、裝置及計算機系統(tǒng),所述方法包括:獲取待分類的文章;按照預(yù)設(shè)規(guī)則,對所述文章進行分詞,獲得分詞結(jié)果;根據(jù)所述分詞結(jié)果及預(yù)設(shè)詞庫,識別所述分詞結(jié)果包含的預(yù)設(shè)關(guān)鍵詞,所述預(yù)設(shè)詞庫用于存儲預(yù)設(shè)關(guān)鍵詞及對應(yīng)的預(yù)設(shè)類型;根據(jù)包含的所述預(yù)設(shè)關(guān)鍵詞對應(yīng)的預(yù)設(shè)類型,確定所述文章包含的目標(biāo)預(yù)設(shè)類型;使用預(yù)設(shè)匹配算法對所述分詞結(jié)果及所述目標(biāo)預(yù)設(shè)類型進行匹配,確定所述文章對應(yīng)的預(yù)設(shè)類型,可實現(xiàn)對大量采集的文章進行分類,提高了文章分類效率,經(jīng)過封裝后可直接提供給分析人員進行使用,提高了分析人員的文章分析效率。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機應(yīng)用技術(shù)領(lǐng)域,尤其涉及一種文章的分類方法、裝置及計算機系統(tǒng)。
背景技術(shù)
隨著網(wǎng)絡(luò)科技的發(fā)展,用戶常常會將自身對某一產(chǎn)品的使用反饋上傳到網(wǎng)站上供其他用戶參考,產(chǎn)品的生產(chǎn)及銷售方也會在網(wǎng)站上發(fā)布產(chǎn)品的廣告文案以吸引用戶進行購買。而該產(chǎn)品的競品生產(chǎn)及銷售方常常需要對該產(chǎn)品的反饋、廣告文案等進行分析,以得到對該產(chǎn)品的全面了解。然而,在采集廣告文案等數(shù)據(jù)時,很難針對性地僅采集某一產(chǎn)品對應(yīng)的廣告文案等數(shù)據(jù),常常會同時采集到其他產(chǎn)品的數(shù)據(jù),這就導(dǎo)致需要對采集的數(shù)據(jù)進行預(yù)先分類,分析者才能獲取相應(yīng)的數(shù)據(jù)進行分析。因此,亟需一種文章的分類方法,以實現(xiàn)對采集的文章的自動化分類。
發(fā)明內(nèi)容
為了解決現(xiàn)有技術(shù)的不足,本發(fā)明的主要目的在于提供一種文章的分類方法、裝置及計算機系統(tǒng),以實現(xiàn)對文章的自動化分類。
為了達到上述目的,第一方面本發(fā)明提供了一種文章的分類方法,所述方法包括:
獲取待分類的文章;
按照預(yù)設(shè)規(guī)則,對所述文章進行分詞,獲得分詞結(jié)果;
根據(jù)所述分詞結(jié)果及預(yù)設(shè)詞庫,識別所述分詞結(jié)果包含的預(yù)設(shè)關(guān)鍵詞,所述預(yù)設(shè)詞庫用于存儲預(yù)設(shè)關(guān)鍵詞及對應(yīng)的預(yù)設(shè)類型;
根據(jù)包含的所述預(yù)設(shè)關(guān)鍵詞對應(yīng)的預(yù)設(shè)類型,確定所述文章包含的目標(biāo)預(yù)設(shè)類型;
使用預(yù)設(shè)匹配算法對所述分詞結(jié)果及所述目標(biāo)預(yù)設(shè)類型進行匹配,確定所述文章對應(yīng)的預(yù)設(shè)類型。
在一些實施例中,使用預(yù)設(shè)匹配算法對所述分詞結(jié)果及所述目標(biāo)預(yù)設(shè)類型進行匹配,確定所述文章對應(yīng)的預(yù)設(shè)類型包括:
根據(jù)所述預(yù)設(shè)詞庫中所述目標(biāo)預(yù)設(shè)類型對應(yīng)的預(yù)設(shè)關(guān)鍵詞,生成每一所述目標(biāo)預(yù)設(shè)類型對應(yīng)的分詞詞組;
對所述分詞結(jié)果及每一所述分詞詞組進行匹配,確定所述分詞結(jié)果與每一所述分詞詞組的匹配度;
確定匹配度最高的分詞詞組對應(yīng)的目標(biāo)預(yù)設(shè)類型為所述文章對應(yīng)的預(yù)設(shè)類型。
在一些實施例中,所述獲取待分類的文章包括:
從預(yù)設(shè)網(wǎng)站獲取原始文本;
識別并去除所述原始文本包括的預(yù)設(shè)字符,生成待分類的文章,所述預(yù)設(shè)字符包括預(yù)設(shè)符號及網(wǎng)頁元素標(biāo)簽。
在一些實施例中,所述分詞結(jié)果包括一個或一個以上的詞,所述按照預(yù)設(shè)規(guī)則,對所述文章進行分詞,獲得分詞結(jié)果包括:
根據(jù)預(yù)設(shè)的同義詞詞庫,識別所述分詞結(jié)果包括的同義詞對,所述同義詞對由一個以上的詞組成;
將所述分詞結(jié)果中包括的所述同義詞對替換為對應(yīng)的預(yù)設(shè)替換詞。
在一些實施例中,所述方法包括:
根據(jù)所述分詞結(jié)果及確定的所述文章對應(yīng)的預(yù)設(shè)類型,更新所述預(yù)設(shè)詞庫中確定的所述文章對應(yīng)的預(yù)設(shè)類型對應(yīng)的預(yù)設(shè)詞。
在一些實施例中,所述方法中的對所述分詞結(jié)果及每一所述分詞詞組進行匹配,確定所述分詞結(jié)果與每一所述分詞詞組的匹配度包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海豹云網(wǎng)絡(luò)信息服務(wù)有限公司,未經(jīng)上海豹云網(wǎng)絡(luò)信息服務(wù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011217423.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





