[發明專利]文章識別方法、裝置、計算機可讀存儲介質和計算機設備在審
| 申請號: | 202010097314.3 | 申請日: | 2020-02-17 |
| 公開(公告)號: | CN112800771A | 公開(公告)日: | 2021-05-14 |
| 發明(設計)人: | 康戰輝 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/289;G06F16/33 |
| 代理公司: | 廣州華進聯合專利商標代理有限公司 44224 | 代理人: | 毛丹 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文章 識別 方法 裝置 計算機 可讀 存儲 介質 設備 | ||
1.一種文章的識別方法,包括:
獲取待識別文章;
根據所述待識別文章的文本信息獲取所述待識別文章的詞向量表示,將所述詞向量表示作為所述待識別文章的文章語義特征;
獲取所述待識別文章的正文呈現形式特征;
根據所述文章語義特征和正文呈現形式特征,識別所述待識別文章的文章類型。
2.根據權利要求1所述的方法,其特征在于,所述根據所述待識別文章的文本信息獲取所述待識別文章的詞向量表示,包括:
對所述待識別文章的文本信息進行分詞,得到所述待識別文章的文本詞;
獲取與所述文本詞的詞義特征對應的第一詞向量,獲取與所述文本詞的構詞特征對應的第二詞向量;
根據所述第一詞向量和第二詞向量獲取所述待識別文章的詞向量表示。
3.根據權利要求2所述的方法,其特征在于,所述對所述待識別文章的文本信息進行分詞之前,還包括:
獲取所述待識別文章的標題文本;
獲取所述待識別文章的正文內容;
將所述正文內容中包含的非文本類型的內容轉化為對應的文本,得到正文文本;
根據所述標題文本和正文文本,得到所述待識別文章的文本信息。
4.根據權利要求3所述的方法,其特征在于,所述非文本類型的內容包括目標圖片;所述將所述正文內容中包含的非文本類型的內容轉化為對應的文本,得到正文文本,包括:
獲取所述目標圖片中攜帶的文字信息;
確定所述文字信息在所述目標圖片上的布局特征;
將所述文字信息轉化為與所述布局特征相匹配的文本,得到所述正文文本。
5.根據權利要求4所述的方法,其特征在于,所述非文本類型的內容包括依序展示的至少兩張所述目標圖片;所述將所述文字信息轉化為與所述布局特征相匹配的文本,得到所述正文文本,包括:
將各目標圖片中的文字信息轉化為與所述布局特征相匹配的文本,得到至少兩個子正文文本;
按照所述各目標圖片對應的展示順序,將所述至少兩個子正文文本組合得到所述正文文本。
6.根據權利要求2所述的方法,其特征在于,所述對所述待識別文章的文本信息進行分詞,包括:
獲取所述待識別文章的文本信息;
將所述文本信息中包含的設定字符進行過濾,得到過濾后的文本信息;
將所述過濾后的文本信息轉化為設定字體類型的文本信息;
對所述設定字體類型的文本信息進行分詞。
7.根據權利要求1所述的方法,其特征在于,所述正文呈現形式特征包括文本統計特征或者正文導流特征;其中,所述文本統計特征為所述待識別文章的正文內容中屬于文本類型的內容的統計特征;所述正文導流特征為所述待識別文章的正文內容中具有的導流特征。
8.根據權利要求1所述的方法,其特征在于,所述正文呈現形式特征包括文本統計特征和正文導流特征;所述獲取所述待識別文章的正文呈現形式特征,包括:
獲取所述待識別文章的正文文本,確定所述正文文本對應的文本統計特征;
確定所述待識別文章的正文內容中的導流標識信息;
根據所述導流標識信息得到所述待識別文章的正文導流特征;
根據所述文本統計特征和正文導流特征,獲取所述正文呈現形式特征。
9.根據權利要求1所述的方法,其特征在于,所述根據所述文章語義特征和正文呈現形式特征,識別所述待識別文章的文章類型,包括:
將所述文章語義特征和正文呈現形式特征輸入至預先構建的文章分類器;其中,所述文章分類器是根據至少兩種文章類型的文章樣本的樣本特征信息,進行模型訓練得到的文章分類器;所述樣本特征信息包括樣本文章語義特征和樣本正文呈現形式特征;
獲取所述文章分類器得到的文章類型,得到所述待識別文章的文章類型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010097314.3/1.html,轉載請聲明來源鉆瓜專利網。





