[發明專利]一種文本信息識別方法、裝置、儲存介質及電子設備在審
| 申請號: | 201910786037.4 | 申請日: | 2019-08-23 |
| 公開(公告)號: | CN110543632A | 公開(公告)日: | 2019-12-06 |
| 發明(設計)人: | 張凱;魏亮 | 申請(專利權)人: | 北京粉筆藍天科技有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06K9/62 |
| 代理公司: | 11489 北京中政聯科專利代理事務所(普通合伙) | 代理人: | 鄭久興<國際申請>=<國際公布>=<進入 |
| 地址: | 100102 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語義關系圖 文本信息 分詞 文本 預處理 儲存介質 電子設備 垃圾文本 垃圾信息 文本構建 準確率 構建 | ||
1.一種文本信息識別方法,其特征在于,包括:
將已知文本進行預處理,得到分詞文本;
根據所述分詞文本構建語義關系圖;
根據所述語義關系圖來判斷文本信息垃圾信息等級。
2.根據權利要求1所述的方法,其特征在于,所述將已知的普通文本和垃圾文本進行預處理包括:
將所述已知文本進行非可用詞過濾處理,得到純可用詞文本;
將所述純可用詞文本進行分詞處理,得到分詞文本。
3.根據權利要求1所述的方法,其特征在于,所述根據所述分詞文本構建語義關系圖包括:
根據所述分詞文本中的正常文本構建正常語義關系圖;和/或
根據所述分詞文本中的垃圾文本構建垃圾語義關系圖。
4.根據權利要求1-3任一項所述的方法,其特征在于,還包括:
根據所述文本信息的垃圾信息等級,對所述文本信息進行識別處理。
5.根據權利要求4所述的方法,其特征在于,所述根據所述垃圾信息等級,對所述文本信息進行識別處理包括下述中的至少一種:
將垃圾信息等級為高的,進行屏蔽處理;
將垃圾信息等級為中的,進行人工審核處理;
將垃圾信息等級為低的,進行放行處理。
6.根據權利要求1-5任一項所述的方法,其特征在于,還包括:
根據用戶的反饋信息,對所述語義關系圖進行更新。
7.一種文本信息識別裝置,其特征在于,包括:
已知文本處理模塊,用于將已知文本進行預處理,得到分詞文本;
關系圖構建模塊,用于根據所述分詞文本構建語義關系圖;
判斷模塊,用于根據所述語義關系圖來判斷文本信息垃圾信息等級。
8.根據權利要求7所述的裝置,其特征在于,所述已知文本處理模塊包括:
過濾單元,用于將所述已知文本進行非可用詞過濾處理,得到純可用詞文本;
分詞單元,用于將所述純可用詞文本進行分詞處理,得到分詞文本。
9.根據權利要求7所述的裝置,其特征在于,所述關系圖構建模塊包括:
正常語義關系圖構建單元,用于根據所述分詞文本中的正常文本構建正常語義關系圖;和/或
垃圾語義關系圖構建單元,用于根據所述分詞文本中的垃圾文本構建垃圾語義關系圖。
10.根據權利要求7-9任一項所述的裝置,其特征在于,還包括:
識別處理模塊,用于根據所述文本信息的垃圾信息等級,對所述文本信息進行識別處理。
11.根據權利要求10所述的裝置,其特征在于,所述識別處理模塊包括下述中的至少一種:
屏蔽單元,用于將垃圾信息等級為高的,進行屏蔽處理;
人工審核處理單元,用于將垃圾信息等級為中的,進行人工審核處理;
放行單元,用于將垃圾信息等級為低的,進行放行處理。
12.根據權利要求7-11任一項所述的裝置,其特征在于,還包括:
更新模塊,用于根據用戶的反饋信息,對所述語義關系圖進行更新。
13.一種計算機存儲介質,其特征在于,所述存儲介質上存儲有計算機程序,所述程序被處理器執行時實現權利要求1-6中任意一項所述方法的步驟。
14.一種電子設備,其特征在于,包括存儲器、顯示器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述處理器執行所述程序時實現權利要求1-6中任意一項所述方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京粉筆藍天科技有限公司,未經北京粉筆藍天科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910786037.4/1.html,轉載請聲明來源鉆瓜專利網。





