[發明專利]一種文本信息識別方法、裝置、儲存介質及電子設備在審

申請號：	201910786037.4	申請日：	2019-08-23
公開（公告）號：	CN110543632A	公開（公告）日：	2019-12-06
發明（設計）人：	張凱;魏亮	申請（專利權）人：	北京粉筆藍天科技有限公司
主分類號：	G06F17/27	分類號：	G06F17/27;G06K9/62
代理公司：	11489 北京中政聯科專利代理事務所(普通合伙)	代理人：	鄭久興<國際申請>=<國際公布>=<進入
地址：	100102 ***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	語義關系圖文本信息分詞文本預處理儲存介質電子設備垃圾文本垃圾信息文本構建準確率構建
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種文本信息識別方法，其特征在于，包括：

將已知文本進行預處理，得到分詞文本；

根據所述分詞文本構建語義關系圖；

根據所述語義關系圖來判斷文本信息垃圾信息等級。

2.根據權利要求1所述的方法，其特征在于，所述將已知的普通文本和垃圾文本進行預處理包括：

將所述已知文本進行非可用詞過濾處理，得到純可用詞文本；

將所述純可用詞文本進行分詞處理，得到分詞文本。

3.根據權利要求1所述的方法，其特征在于，所述根據所述分詞文本構建語義關系圖包括：

根據所述分詞文本中的正常文本構建正常語義關系圖；和/或

根據所述分詞文本中的垃圾文本構建垃圾語義關系圖。

4.根據權利要求1-3任一項所述的方法，其特征在于，還包括：

根據所述文本信息的垃圾信息等級，對所述文本信息進行識別處理。

5.根據權利要求4所述的方法，其特征在于，所述根據所述垃圾信息等級，對所述文本信息進行識別處理包括下述中的至少一種：

將垃圾信息等級為高的，進行屏蔽處理；

將垃圾信息等級為中的，進行人工審核處理；

將垃圾信息等級為低的，進行放行處理。

6.根據權利要求1-5任一項所述的方法，其特征在于，還包括：

根據用戶的反饋信息，對所述語義關系圖進行更新。

7.一種文本信息識別裝置，其特征在于，包括：

已知文本處理模塊，用于將已知文本進行預處理，得到分詞文本；

關系圖構建模塊，用于根據所述分詞文本構建語義關系圖；

判斷模塊，用于根據所述語義關系圖來判斷文本信息垃圾信息等級。

8.根據權利要求7所述的裝置，其特征在于，所述已知文本處理模塊包括：

過濾單元，用于將所述已知文本進行非可用詞過濾處理，得到純可用詞文本；

分詞單元，用于將所述純可用詞文本進行分詞處理，得到分詞文本。

9.根據權利要求7所述的裝置，其特征在于，所述關系圖構建模塊包括：

正常語義關系圖構建單元，用于根據所述分詞文本中的正常文本構建正常語義關系圖；和/或

垃圾語義關系圖構建單元，用于根據所述分詞文本中的垃圾文本構建垃圾語義關系圖。

10.根據權利要求7-9任一項所述的裝置，其特征在于，還包括：

識別處理模塊，用于根據所述文本信息的垃圾信息等級，對所述文本信息進行識別處理。

11.根據權利要求10所述的裝置，其特征在于，所述識別處理模塊包括下述中的至少一種：

屏蔽單元，用于將垃圾信息等級為高的，進行屏蔽處理；

人工審核處理單元，用于將垃圾信息等級為中的，進行人工審核處理；

放行單元，用于將垃圾信息等級為低的，進行放行處理。

12.根據權利要求7-11任一項所述的裝置，其特征在于，還包括：

更新模塊，用于根據用戶的反饋信息，對所述語義關系圖進行更新。

13.一種計算機存儲介質，其特征在于，所述存儲介質上存儲有計算機程序，所述程序被處理器執行時實現權利要求1-6中任意一項所述方法的步驟。

14.一種電子設備，其特征在于，包括存儲器、顯示器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序，所述處理器執行所述程序時實現權利要求1-6中任意一項所述方法的步驟。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于北京粉筆藍天科技有限公司，未經北京粉筆藍天科技有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201910786037.4/1.html，轉載請聲明來源鉆瓜專利網。

上一篇：機器閱讀理解的實現方法、裝置、存儲介質及電子設備
下一篇：語句意圖識別方法、裝置

同類專利

專利分類

G 物理

G06 計算；推算；計數
G06F 電數字數據處理
G06F17-00 特別適用于特定功能的數字計算設備或數據處理設備或數據處理方法
G06F17-10 .復雜數學運算的
G06F17-20 .處理自然語言數據的
G06F17-30 .信息檢索；及其數據庫結構
G06F17-40 .數據的獲取和記錄
G06F17-50 .計算機輔助設計

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】