[發明專利]文檔的分類識別方法、裝置和電子設備在審
| 申請號: | 202110252127.2 | 申請日: | 2021-03-08 |
| 公開(公告)號: | CN113051396A | 公開(公告)日: | 2021-06-29 |
| 發明(設計)人: | 周厚謙;鐘輝強;黃強;徐思琪;劉晨輝 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/247;G06F40/289;G06F40/30 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 韓海花 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文檔 分類 識別 方法 裝置 電子設備 | ||
1.一種文檔的分類識別方法,包括:
獲取待處理文檔;
從所述待處理文檔之中提取目標語句集合,并獲取所述目標語句集合之中目標語句的語義特征;
從所述待處理文檔之中提取寫作特征;
根據所述語義特征和所述寫作特征生成所述待處理文檔的分類。
2.如權利要求1所述的方法,所述獲取所述目標語句集合之中目標語句的語義特征,包括:
將所述目標語句集合之中的目標語句輸入至學生分類模型的特征提取層,以生成初始語義特征;
根據預設敏感詞生成注意力權重;
根據所述注意力權重對所述初始語義特征進程處理以生成所述語義特征。
3.如權利要求1所述的方法,所述從所述待處理文檔之中提取目標語句集合,包括:
提取所述待處理文檔的標題,并作為所述目標語句加入所述目標語句集合;
提取所述待處理文檔之中的前N句語句,并作為所述目標語句加入所述目標語句集合。
4.如權利要求2所述的方法,所述學生分類模型通過以下步驟生成:
獲取標注數據;
根據所述標注數據對教師分類模型進行訓練;
獲取無標注數據;
根據訓練得到的教師分類模型對所述無標注數據進行預測以生成分類類型標簽;
根據所述分類類型標簽和所述標注數據對所述學生分類模型進行訓練。
5.如權利要求4所述的方法,其中,還包括:
對所述標注數據進行增強。
6.如權利要求5所述的方法,其中,所述對所述標注數據進行增強,包括:
獲取所述標注數據之中的文本內容;
使用同義詞或者正則表達式對所述文本內容進行隨機替換,將替換之后的文本內容作為所述標注數據。
7.如權利要求5所述的方法,其中,所述對所述標注數據進行增強,包括:
獲取所述標注數據之中的文本內容,其中,所述文本內容為第一語言;
將所述文本內容從所述第一語言翻譯為第二語言;
將所述第二語言的文本內容進行回譯,將回譯之后的文本內容作為所述標注數據。
8.如權利要求5所述的方法,其中,所述對所述標注數據進行增強,包括:
獲取所述標注數據之中的正常文本內容和異常文本內容;
將所述正常文本內容和所述異常文本內容進行合并,以生成合并文本內容;
將所述合并文本內容作為所述標注數據。
9.如權利要求5所述的方法,其中,所述對所述標注數據進行增強,包括:
獲取所述標注數據之中的文本內容;
獲取所述文本內容之中的標題和正文;
對所述文本內容之中的標題或正文進行替換,并將替換之中的文本內容作為所述標注數據。
10.如權利要求5所述的方法,其中,所述對所述標注數據進行增強,包括:
通過隨機算法生成文本內容,并作為所述標注數據。
11.一種文檔的分類識別裝置,包括:
獲取模塊,用于獲取待處理文檔;
處理模塊,用于從所述待處理文檔之中提取目標語句集合,并獲取所述目標語句集合之中目標語句的語義特征;
提取模塊,用于從所述待處理文檔之中提取寫作特征;
生成模塊,用于根據所述語義特征和所述寫作特征生成所述待處理文檔的分類。
12.如權利要求11所述的裝置,所述處理模塊,還用于:
將所述目標語句集合之中的目標語句輸入至學生分類模型的特征提取層,以生成初始語義特征;
根據預設敏感詞生成注意力權重;
根據所述注意力權重對所述初始語義特征進程處理以生成所述語義特征。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110252127.2/1.html,轉載請聲明來源鉆瓜專利網。





