[發明專利]一種左右遞歸新詞發現方法在審
| 申請號: | 201611152464.X | 申請日: | 2016-11-30 |
| 公開(公告)號: | CN106649666A | 公開(公告)日: | 2017-05-10 |
| 發明(設計)人: | 尹云飛;劉歡;曾亞飛 | 申請(專利權)人: | 浪潮電子信息產業股份有限公司;重慶大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 250101 山東省濟南*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 左右 遞歸 新詞 發現 方法 | ||
技術領域
本發明屬于搜索引擎技術領域,來源于詞法分析和快速檢索的構建和使用實踐。本發明既可以用于通用商業數據的高效分類和檢索又可以作為公安、軍事等特殊領域的專業分檢。
背景技術
隨著各個行業信息化的快速發展,當今各個垂直領域的數據越來越多,而其中有很多數據是無用的,不需要特殊處理。
如何快速、高效從垂直領域內的海量數據中檢索、智能挖掘出有用的信息成為現在智能搜索引擎發展的一大難題。隨著搜索引擎技術的發展,出現了各種各樣的搜索引擎技術,但絕大部分搜索引擎技術針對特殊領域中的特殊術語和特殊表達方式不能進行有效的檢索和智能推薦,所以現有的搜索引擎技術不能滿足當前行業的需求,這就促進了分布式智能搜索引擎的發展。
針對垂直領域往往會出現很多特定的專業詞匯以及新詞匯,對于這些詞匯,現有詞典中是沒有的,如果語料中包含了這些詞匯,那么詞法分析邏輯處理模塊處理時將會造成一定的誤差。所以需要針對這些專業詞匯、新詞匯進行自動化的搜集功能,并把這些詞匯加入到詞庫中構建出該垂直領域的特殊詞庫,這樣就能提高搜索引擎中詞法分析邏輯處理模塊的處理效率、精度,從而提高搜索引擎的搜索效率、精確度。
一般而言,當數據進入分布式搜索引擎時,同時也進入新詞詞庫構建流程,對輸入語料數據進行新詞發現,如果發現的新詞沒有在現有詞庫中出現過,就把這個新詞加入到新詞詞庫。
現有的新詞發現方法一般是采用基于規則的新詞發現或者基于統計的新詞發現。最早采用的新詞發現方法都是采用的基于規則的新詞發現方法,它通過研究新詞的內部構造規則和外部構造規則來形成對應的規則庫,以此規則庫為準則來發現新詞。而基于統計的新詞發現方法是通過找到長度不大于n的所有詞匯,對這些詞匯進行詞頻、互信息的計算,如果計算指標滿足預先設定的指標閾值就作為新詞。
在新詞發現方法中,前述兩種方法都各有利弊。基于規則的方法,新詞發現的準確度、效率都相對較高,但在規則庫的創建上需要耗費大量的人力去進行規則提取,隨著語言的發展,規則庫需要不斷的更新,因此該方法不是自適應的,擴展性不好;基于統計的方法,新詞發現的過程是自動化的,但這種方式會發現很多詞頻較高的垃圾串,而且不能發現長度非常長的新詞,例如,少數民族人名、音譯名。
通過對各種新詞發現技術的調研,發現當前大部分的新詞發現方法都是基于窗口的模式去發現新詞,這種模式使得長度較長的新詞不能被發現。我們發明一種基于左右遞歸的新詞發現方法,在進行新詞發現時,大大提高了新詞發現的準確度。利用這種新詞發現方法可以很方便地建立高準確度的自適應垂直領域詞典,并且隨著數據量的增加,詞典越來越健全。針對特殊的領域,可以大幅度提高索引數據時分詞的準確度。
通過一種左右遞歸新詞發現方法能夠有效解決現有方法面臨的上述問題。
發明內容
本發明公開了一種左右遞歸新詞發現方法。一種左右遞歸新詞發現方法由語料預處理、位置集合計算、集合遍歷、收納性判斷、詞頻計算、左遞歸、右遞歸、合并八個步驟組成。
下面具體設計這種左右遞歸新詞發現方法:
一種左右遞歸新詞發現方法按照三個指標評定一個新詞,即詞頻、互信息、信息熵。
(1)詞頻
統計詞匯在語料中出現的頻率,出現的頻率越高就越可能是新詞,當詞頻達到某個閾值就認為可能成為一個新詞,計算公式如下:
其中,N(X)表示字符串X出現的次數;N表示語料的總字數。
(2)互信息
互信息是最早出現在信息論中的信息度量指標,標識了一個事件集合與另一個事件集合關系的信息量。兩個事件集合之間的互信息越大就表明相關性越大,反之越小。互信息作為計算語言學模型分析的常用方法,由于它對特征詞和分類之間關系的性質沒有任何限制,所以互信息常常用于文本分類的特征和類別的配準。
在新詞發現方法中,利用互信息能夠發現字符串與字符串之間的一個關聯程度,字符串X,Y互信息的計算公式如下:
其中,X、Y表示字符串或者單字;p(XY)表示字符串X和字符串Y在輸入語料中同時出現的概率;p(X)和p(Y)分別表示字符串X在輸入語料中出現的概率和字符串Y在輸入語料中出現的概率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浪潮電子信息產業股份有限公司;重慶大學,未經浪潮電子信息產業股份有限公司;重慶大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611152464.X/2.html,轉載請聲明來源鉆瓜專利網。





