[發明專利]一種文本信息識別方法、裝置、儲存介質及電子設備在審
| 申請號: | 201910786037.4 | 申請日: | 2019-08-23 |
| 公開(公告)號: | CN110543632A | 公開(公告)日: | 2019-12-06 |
| 發明(設計)人: | 張凱;魏亮 | 申請(專利權)人: | 北京粉筆藍天科技有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06K9/62 |
| 代理公司: | 11489 北京中政聯科專利代理事務所(普通合伙) | 代理人: | 鄭久興<國際申請>=<國際公布>=<進入 |
| 地址: | 100102 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語義關系圖 文本信息 分詞 文本 預處理 儲存介質 電子設備 垃圾文本 垃圾信息 文本構建 準確率 構建 | ||
本發明公開了一種文本信息識別方法、裝置、儲存介質及電子設備,其中文本信息識別方法,包括:將已知文本進行預處理,得到分詞文本;根據所述分詞文本構建語義關系圖;根據所述語義關系圖來判斷文本信息垃圾信息等級。該方法通過構建語義關系圖,利用語義關系圖對文本信息進行判斷顯著提高垃圾文本識別的準確率和召回率。
技術領域
本發明涉及計算機技術領域,尤其涉及一種文本信息識別方法、裝置、儲存介質及電子設備。
背景技術
在線社區環境中,文字信息是用戶的一種主要溝通方式。隨著在線社區的不斷發展,在社區中討論和交流的人越來越多,在社區中難免會出現垃圾信息和廣告,以及色情/暴力等信息,甚至是對他人進行人身攻擊和惡意中傷。
各個在線社區基本都會有人工處理,關鍵詞屏蔽處理。
但是以上的處理辦法都有很大的局限性,要么垃圾文本的處理不及時;要么規則很固定,很容易被繞過。并且,現有技術中的垃圾文本的召回率和準確率都很低。
發明內容
(一)發明目的
本發明的目的是提供一種文本信息識別方法、裝置、儲存介質及電子設備以解決現有技術的垃圾文本的召回率和準確率都很低的問題。
(二)技術方案
為解決上述問題,本發明的第一方面提供了一種文本信息識別方法,包括:將已知文本進行預處理,得到分詞文本;根據所述分詞文本構建語義關系圖;根據所述語義關系圖來判斷文本信息垃圾信息等級。
進一步地,所述將已知的普通文本和垃圾文本進行預處理包括:將所述已知文本進行非可用詞過濾處理,得到純可用詞文本;將所述純可用詞文本進行分詞處理,得到分詞文本。
進一步地,所述根據所述分詞文本構建語義關系圖包括:根據所述分詞文本中的正常文本構建正常語義關系圖;和/或根據所述分詞文本中的垃圾文本構建垃圾語義關系圖。
進一步地,還包括:根據所述文本信息的垃圾信息等級,對所述文本信息進行識別處理。
進一步地,所述根據所述垃圾信息等級,對所述文本信息進行識別處理包括下述中的至少一種:將垃圾信息等級為高的,進行屏蔽處理;將垃圾信息等級為中的,進行人工審核處理;將垃圾信息等級為低的,進行放行處理。
進一步地,還包括:根據用戶的反饋信息,對所述語義關系圖進行更新。
根據本發明的另一個方面,提供一種文本信息識別裝置,包括:已知文本處理模塊,用于將已知文本進行預處理,得到分詞文本;關系圖構建模塊,用于根據所述分詞文本構建語義關系圖;判斷模塊,用于根據所述語義關系圖來判斷文本信息垃圾信息等級。
進一步地,所述已知文本處理模塊包括:過濾單元,用于將所述已知文本進行非可用詞過濾處理,得到純可用詞文本;分詞單元,用于將所述純可用詞文本進行分詞處理,得到分詞文本。
進一步地,所述關系圖構建模塊包括:正常語義關系圖構建單元,用于根據所述分詞文本中的正常文本構建正常語義關系圖;和/或垃圾語義關系圖構建單元,用于根據所述分詞文本中的垃圾文本構建垃圾語義關系圖。
進一步地,還包括:識別處理模塊,用于根據所述文本信息的垃圾信息等級,對所述文本信息進行識別處理。
進一步地,所述識別處理模塊包括下述中的至少一種:屏蔽單元,用于將垃圾信息等級為高的,進行屏蔽處理;人工審核處理單元,用于將垃圾信息等級為中的,進行人工審核處理;放行單元,用于將垃圾信息等級為低的,進行放行處理。
進一步地,還包括:更新模塊,用于根據用戶的反饋信息,對所述語義關系圖進行更新。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京粉筆藍天科技有限公司,未經北京粉筆藍天科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910786037.4/2.html,轉載請聲明來源鉆瓜專利網。





