[發明專利]網絡文本處理方法及裝置有效

申請號：	201410564652.8	申請日：	2014-10-21
公開（公告）號：	CN104317883B	公開（公告）日：	2017-11-21
發明（設計）人：	何鑫;侯明午	申請（專利權）人：	北京國雙科技有限公司
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	北京康信知識產權代理有限責任公司11240	代理人：	李志剛,吳貴明
地址：	100086 北京市海淀區***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	網絡文本處理方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明涉及數據處理領域，具體而言，涉及一種網絡文本處理方法及裝置。

背景技術

在對網絡文本的處理中，例如，對網絡文本中的情感詞匯的處理，文本詞匯的提取是非常關鍵的一個環節。通常提取文本詞匯的方法是載入預設詞匯集合(詞典)，將文本與詞典中的詞匯逐一進行匹配，并記錄匹配到的詞匯，用于后續進行詞匯分析。在匹配過程中，若詞匯在文本中出現，則實例化該詞匯對象，記錄該詞匯的權重，通過一系列包括但不限于否定、程度等邏輯的修正，得到該詞匯的得分，最后對所有匹配到的詞匯進行統計意義上的匯總。例如，對某網站訪客評價的網絡文本進行情感詞匯的分析，有助于網站對評價對象做出情感傾向性判斷。

但是在上述文本和預設詞匯集合的匹配過程中存在重復匹配的問題。重復匹配，指一個文章中同一個位置的文本詞匯被多個不同的預設詞匯匹配到，造成實例化的詞匯對象指代重復。例如，如果預設情感詞匯集合(情感詞典)中同時存在“高高興興”和“高興”兩個預設情感詞匯，那么當文本中出現“高高興興”時，將同時提取出兩個情感詞匯元素，即“高高興興”和“高興”，造成重復匹配。

現有的進行詞匯匹配的方式主要有兩種：第一種方法是通過遍歷預設詞匯集合，直接對網絡文本進行匹配，判斷文本中是否包含預設詞匯集合中的詞匯，如果有則記錄該詞匯；第二種方法，首先對文本進行切分，產生多個切分詞，通過與預設詞匯集合比對，判斷每一個切分詞是否為預設詞匯集合中的詞匯，如果是則記錄該詞匯。第一種方法的特點是執行效率較高，時間復雜度為O(n)，是線性的，但是可能發生重復匹配現象；第二種方法匹配時采用的方式不再是原有的包含查詢，而是切分詞與預設詞匯集合中詞匯的完全匹配查詢，因此能夠有效避免重復匹配的發生，但是該方法需要對切分詞進行遍歷，執行效率較低，時間復雜度為O(m*n)，是非線性的，同時，匹配結果依賴于分詞系統的分詞結果，中文分詞效果的好壞會直接對文本中詞匯的提取造成影響。

針對相關技術在進行網絡文本處理過程中不能兼顧避免文本詞匯重復匹配和提高文本詞匯匹配效率的問題，目前尚未提出有效的解決方案。

發明內容

針對現有的對網絡文本進行處理過程中不能兼顧避免文本詞匯重復匹配和提高文本詞匯匹配效率的問題，為此，本發明的主要目的在于提供一種網絡文本處理方法及裝置，以解決上述問題。

為了實現上述目的，根據本發明的一個方面，提供了一種網絡文本處理方法。該方法包括：獲取待分析的網絡文本，其中，網絡文本包括多個詞匯，多個詞匯中至少有一個詞匯包括另一個詞匯；獲取預設詞匯集合，其中，預設詞匯集合包含多個預設詞匯，多個預設詞匯包括第一預設詞匯和第二預設詞匯，第一預設詞匯的長度大于第二預設詞匯的長度；按照多個預設詞匯的長度由長到短的順序，依次判斷多個預設詞匯是否出現在網絡文本中，其中，依次判斷多個預設詞匯是否出現在網絡文本中包括：判斷第一預設詞匯是否出現在網絡文本中，如果第一預設詞匯出現在網絡文本中，在判斷第二預設詞匯是否出現在網絡文本中時，忽略網絡文本中與第一預設詞匯相同的詞匯；獲取網絡文本中與第一預設詞匯和第二預設詞匯相同的詞匯。

進一步地，按照以下方法對多個預設詞匯按詞匯長度由長到短的順序進行排序：獲取多個預設詞匯的首字母；按照首字母的順序對多個預設詞匯進行第一次排序；計算多個預設詞匯的長度；在第一次排序的基礎上，按照詞匯長度由長到短的順序對多個預設詞匯進行再次排序。

進一步地，如果第一預設詞匯出現在網絡文本中，在判斷第二預設詞匯是否出現在網絡文本中時，忽略網絡文本中與第一預設詞匯相同的詞匯包括：如果第一預設詞匯出現在網絡文本中，在判斷第二預設詞匯是否出現在網絡文本中之前，將網絡文本中與第一預設詞匯相同的詞匯替換為非文字符號。

進一步地，如果第一預設詞匯出現在網絡文本中，在判斷第二預設詞匯是否出現在網絡文本中時，忽略網絡文本中與第一預設詞匯相同的詞匯包括：如果第一預設詞匯出現在網絡文本中，在判斷第二預設詞匯是否出現在網絡文本中之前，記錄網絡文本中與第一預設詞匯相同的詞匯在網絡文本中的位置，在判斷第二預設詞匯是否出現在網絡文本中時，忽略網絡文本中位于第一預設詞匯位置處的詞匯。

進一步地，獲取網絡文本中與第一預設詞匯和第二預設詞匯相同的詞匯之后，該方法還包括：將網絡文本中與第一預設詞匯和第二預設詞匯相同的詞匯實例化；獲取實例化的詞匯的權重；對實例化的詞匯進行邏輯修正。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于北京國雙科技有限公司，未經北京國雙科技有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201410564652.8/2.html，轉載請聲明來源鉆瓜專利網。