[發明專利]一種新詞獲取方法及系統有效

申請號：	201210438561.0	申請日：	2012-11-06
公開（公告）號：	CN102929862A	公開（公告）日：	2013-02-13
發明（設計）人：	周步戀;雷大偉;石志偉;車天文;楊振東;王更生;王喜民;何宏靖;徐憶蘇	申請（專利權）人：	深圳市宜搜科技發展有限公司
主分類號：	G06F17/27	分類號：	G06F17/27
代理公司：	深圳市世紀恒程知識產權代理事務所 44287	代理人：	胡海國
地址：	518026 廣東省深圳市福田區濱***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種新詞獲取方法系統
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明涉及互聯網信息處理領域，尤其涉及一種新詞獲取方法與系統。

背景技術

在自然語言處理或計算機語言中，新詞是指以前從來沒有出現過的詞匯，或者在詞典中沒有收錄的詞匯。

隨著計算機網絡技術的快速發展和推廣，網絡數據急劇膨脹，這些數據具有更新速度快，數據量龐大、數據組織形式不規范等特點，但也蘊藏著極多的有價值信息。另外由于人們相互交流需求的增加，網絡成為信息發布、傳播的平臺。由此產生的一些網絡用語、熱門詞匯，被廣泛的運用到了實際生活中，影響著人們的生活，一些新詞逐漸被人們所接受，擴充了漢語詞匯。這些新出現的詞匯呈現出產生速度快、覆蓋領域廣的特點，往往散落在海量的網絡文本中，靠人工去查看和檢索是不可想象的，因此亟需一個快速高效的新詞發現方法。

為了能夠獲取新詞，現有技術和專利主要提供了的方法如下：專利CN200910237979.3提供了中文網頁新詞自動獲取方法，該方法利用不同時間的網頁，進行一個時間序列的對比，去挖掘新詞。這種新詞獲取方法，缺乏對不同網頁內容特點的充分分析利用，挖掘出的新詞結果數量巨大，人工過濾成本高。專利CN200710175229.9提供了一種新詞發現方法和系統，從語料中挖掘高頻字符串，然后到搜索引擎去檢索，根據檢索結果去判斷新詞。這種新詞發現方法，首先沒有對不同特定的語料進行重復利用；其次，對搜索引擎的檢索結果依賴太大；還有就是要不停的去抓取搜索引擎的檢索結果，可能需要很長的時間。專利CN201010113873.5提供了一種提供新詞或熱詞的方法及系統，其中提到的新詞發現方法：利用輸入法的用戶輸入信息進行新詞發現。這種新詞發現的缺點有，一是輸入法用戶數據很難獲取，其次，新詞發現中過濾模塊不完善，人工過濾工作量太大。

因此，現有的新詞識別技術的主要缺點有：一是，選出的新詞結果數量太龐大，需要大量的人工過濾；二是，對不同數據的特點沒有充分的分析利用；三是，由于候選新詞數量太龐大，在規則過濾時，可能過濾掉一些出現頻次少的新詞。

發明內容

本發明解決的技術問題在于提供了一種新詞獲取方法，以解決目前方案中工作量大，檢索結果不準確的問題。本發明還提供了一種新詞獲取系統。

為解決上述問題，本發明提供了一種新詞獲取方法，包括，

收集最新具有時效性的規范數據集和不規范數據集，以及收集歷史規范數據集；

挖掘規范數據集中的可能新詞作為第一候選新詞集，挖掘不規范數據集中的可能新詞作為第二候選新詞集，挖掘歷史規范數據集中的可能新詞作為初始化的非詞高頻串；

將第一候選新詞集和第二候選新詞集進行加權匹配過濾，得到第三候選新詞集；從第三候選新詞集中過濾掉非詞的高頻串，獲得新詞集。

進一步地，上述的方法，還包括，

人工過濾新詞集，得到最終的新詞結果；

進一步地，上述的方法，還包括，

將不是新詞的串加入到非詞的高頻串集合中。

上述的方法，其中，所述最新具有時效性的規范數據集包括一些新聞網頁和最新編輯的正規網頁數據；