[發明專利]文章識別方法、裝置、計算機可讀存儲介質和計算機設備在審
| 申請號: | 202010097314.3 | 申請日: | 2020-02-17 |
| 公開(公告)號: | CN112800771A | 公開(公告)日: | 2021-05-14 |
| 發明(設計)人: | 康戰輝 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/289;G06F16/33 |
| 代理公司: | 廣州華進聯合專利商標代理有限公司 44224 | 代理人: | 毛丹 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文章 識別 方法 裝置 計算機 可讀 存儲 介質 設備 | ||
本申請涉及一種文章的識別方法、裝置、計算機可讀存儲介質和計算機設備,獲取待識別文章,然后根據該文章的文本信息獲取對應的詞向量表示,并將該詞向量表示作為該文章的文章語義特征,接著結合該文章的文章正文的正文呈現形式特征,從而根據文章的文章語義特征和正文呈現形式特征識別出該文章所屬文章類型,該方案將文章整體的文章語義特征及其正文呈現形式特征進行結合來識別文章的類型,避免傳統方式僅提取文章中個別關鍵字而未能命中關鍵詞詞典的缺陷,而能夠從文章的整體文本語義以及正文呈現形式來對各類型文章進行識別,提高文章識別的準確性。
技術領域
本申請涉及互聯網技術領域,特別是涉及一種文章的識別方法、裝置、計算機可讀存儲介質和計算機設備。
背景技術
隨著互聯網技術的發展,如手機、平板電腦等各式各樣的計算機設備可以通過互聯網建立網絡連接,以使信息資源能夠在計算機設備上進行發布、瀏覽等。文章作為其中一種信息資源在互聯網被廣泛傳播,例如社交平臺的服務號可定期發布文章以供用戶瀏覽,而用戶也可通過文章搜索接口查詢需要的文章。但這些文章當中可能會攜帶有如金融詐騙等敏感信息內容,需要對這類文章進行識別。
然而,傳統方法主要是首先采集相關關鍵詞詞典,以提取文章關鍵字結合關鍵詞詞典命中情況的方式對待識別文章所屬文章類型進行識別,例如識別該文章是否為金融詐騙類型的文章等,但這種方式存在對文章的識別準確率較低的技術問題。
發明內容
基于此,有必要針對傳統技術存在對文章的識別準確率較低的技術問題,提供一種文章的識別方法、裝置、計算機可讀存儲介質和計算機設備。
一種文章的識別方法,包括:
獲取待識別文章;
根據所述待識別文章的文本信息獲取所述待識別文章的詞向量表示,將所述詞向量表示作為所述待識別文章的文章語義特征;
獲取所述待識別文章的正文呈現形式特征;
根據所述文章語義特征和正文呈現形式特征,識別所述待識別文章的文章類型。
一種文章的識別裝置,所述裝置包括:
文章獲取模塊,用于獲取待識別文章;
語義特征獲取模塊,用于根據所述待識別文章的文本信息獲取所述待識別文章的詞向量表示,將所述詞向量表示作為所述待識別文章的文章語義特征;
形式特征獲取模塊,用于獲取所述待識別文章的正文呈現形式特征;
類型識別模塊,用于根據所述文章語義特征和正文呈現形式特征,識別所述待識別文章的文章類型。
一種計算機可讀存儲介質,存儲有計算機程序,所述計算機程序被處理器執行時,使得所述處理器執行如下步驟:
獲取待識別文章;根據所述待識別文章的文本信息獲取所述待識別文章的詞向量表示,將所述詞向量表示作為所述待識別文章的文章語義特征;獲取所述待識別文章的正文呈現形式特征;根據所述文章語義特征和正文呈現形式特征,識別所述待識別文章的文章類型。
一種計算機設備,包括存儲器和處理器,所述存儲器存儲有計算機程序,所述計算機程序被所述處理器執行時,使得所述處理器執行如下步驟:
獲取待識別文章;根據所述待識別文章的文本信息獲取所述待識別文章的詞向量表示,將所述詞向量表示作為所述待識別文章的文章語義特征;獲取所述待識別文章的正文呈現形式特征;根據所述文章語義特征和正文呈現形式特征,識別所述待識別文章的文章類型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010097314.3/2.html,轉載請聲明來源鉆瓜專利網。





