日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種左右遞歸新詞發現方法在審

專利信息
申請號: 201611152464.X 申請日: 2016-11-30
公開(公告)號: CN106649666A 公開(公告)日: 2017-05-10
發明(設計)人: 尹云飛;劉歡;曾亞飛 申請(專利權)人: 浪潮電子信息產業股份有限公司;重慶大學
主分類號: G06F17/30 分類號: G06F17/30
代理公司: 暫無信息 代理人: 暫無信息
地址: 250101 山東省濟南*** 國省代碼: 山東;37
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 左右 遞歸 新詞 發現 方法
【說明書】:

技術領域

發明屬于搜索引擎技術領域,來源于詞法分析和快速檢索的構建和使用實踐。本發明既可以用于通用商業數據的高效分類和檢索又可以作為公安、軍事等特殊領域的專業分檢。

背景技術

隨著各個行業信息化的快速發展,當今各個垂直領域的數據越來越多,而其中有很多數據是無用的,不需要特殊處理。

如何快速、高效從垂直領域內的海量數據中檢索、智能挖掘出有用的信息成為現在智能搜索引擎發展的一大難題。隨著搜索引擎技術的發展,出現了各種各樣的搜索引擎技術,但絕大部分搜索引擎技術針對特殊領域中的特殊術語和特殊表達方式不能進行有效的檢索和智能推薦,所以現有的搜索引擎技術不能滿足當前行業的需求,這就促進了分布式智能搜索引擎的發展。

針對垂直領域往往會出現很多特定的專業詞匯以及新詞匯,對于這些詞匯,現有詞典中是沒有的,如果語料中包含了這些詞匯,那么詞法分析邏輯處理模塊處理時將會造成一定的誤差。所以需要針對這些專業詞匯、新詞匯進行自動化的搜集功能,并把這些詞匯加入到詞庫中構建出該垂直領域的特殊詞庫,這樣就能提高搜索引擎中詞法分析邏輯處理模塊的處理效率、精度,從而提高搜索引擎的搜索效率、精確度。

一般而言,當數據進入分布式搜索引擎時,同時也進入新詞詞庫構建流程,對輸入語料數據進行新詞發現,如果發現的新詞沒有在現有詞庫中出現過,就把這個新詞加入到新詞詞庫。

現有的新詞發現方法一般是采用基于規則的新詞發現或者基于統計的新詞發現。最早采用的新詞發現方法都是采用的基于規則的新詞發現方法,它通過研究新詞的內部構造規則和外部構造規則來形成對應的規則庫,以此規則庫為準則來發現新詞。而基于統計的新詞發現方法是通過找到長度不大于n的所有詞匯,對這些詞匯進行詞頻、互信息的計算,如果計算指標滿足預先設定的指標閾值就作為新詞。

在新詞發現方法中,前述兩種方法都各有利弊。基于規則的方法,新詞發現的準確度、效率都相對較高,但在規則庫的創建上需要耗費大量的人力去進行規則提取,隨著語言的發展,規則庫需要不斷的更新,因此該方法不是自適應的,擴展性不好;基于統計的方法,新詞發現的過程是自動化的,但這種方式會發現很多詞頻較高的垃圾串,而且不能發現長度非常長的新詞,例如,少數民族人名、音譯名。

通過對各種新詞發現技術的調研,發現當前大部分的新詞發現方法都是基于窗口的模式去發現新詞,這種模式使得長度較長的新詞不能被發現。我們發明一種基于左右遞歸的新詞發現方法,在進行新詞發現時,大大提高了新詞發現的準確度。利用這種新詞發現方法可以很方便地建立高準確度的自適應垂直領域詞典,并且隨著數據量的增加,詞典越來越健全。針對特殊的領域,可以大幅度提高索引數據時分詞的準確度。

通過一種左右遞歸新詞發現方法能夠有效解決現有方法面臨的上述問題。

發明內容

本發明公開了一種左右遞歸新詞發現方法。一種左右遞歸新詞發現方法由語料預處理、位置集合計算、集合遍歷、收納性判斷、詞頻計算、左遞歸、右遞歸、合并八個步驟組成。

下面具體設計這種左右遞歸新詞發現方法:

一種左右遞歸新詞發現方法按照三個指標評定一個新詞,即詞頻、互信息、信息熵。

(1)詞頻

統計詞匯在語料中出現的頻率,出現的頻率越高就越可能是新詞,當詞頻達到某個閾值就認為可能成為一個新詞,計算公式如下:

其中,N(X)表示字符串X出現的次數;N表示語料的總字數。

(2)互信息

互信息是最早出現在信息論中的信息度量指標,標識了一個事件集合與另一個事件集合關系的信息量。兩個事件集合之間的互信息越大就表明相關性越大,反之越小。互信息作為計算語言學模型分析的常用方法,由于它對特征詞和分類之間關系的性質沒有任何限制,所以互信息常常用于文本分類的特征和類別的配準。

在新詞發現方法中,利用互信息能夠發現字符串與字符串之間的一個關聯程度,字符串X,Y互信息的計算公式如下:

其中,X、Y表示字符串或者單字;p(XY)表示字符串X和字符串Y在輸入語料中同時出現的概率;p(X)和p(Y)分別表示字符串X在輸入語料中出現的概率和字符串Y在輸入語料中出現的概率。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浪潮電子信息產業股份有限公司;重慶大學,未經浪潮電子信息產業股份有限公司;重慶大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201611152464.X/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖、流程工藝圖技術構造圖;

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 国产精品一区二区免费视频| 亚洲欧洲一二三区| 性色av色香蕉一区二区| 日本少妇高潮xxxxⅹ| 国产午夜精品一区| 午夜社区在线观看| 亚洲精品日本无v一区| 亚洲欧美一区二区精品久久久| ass美女的沟沟pics| 国产电影精品一区| 国产精品久久久久免费a∨大胸| 午夜看大片| 日韩亚洲欧美一区二区| 99久久精品免费看国产交换| 久久96国产精品久久99软件| 日本精品一区视频| 国产伦精品一区二区三区照片91| 日本一二三不卡| 99精品偷拍视频一区二区三区| 欧美一区二区三区艳史| 日韩av三区| 中文字幕天天躁日日躁狠狠躁免费 | 国产欧美亚洲一区二区| 国产床戏无遮挡免费观看网站| 久久99亚洲精品久久99果| 国产精品一二三在线观看| 狠狠色狠狠色综合日日2019| 夜色av网站| 国产精品一二三在线观看| 国产一级片一区二区| 国产电影一区二区三区下载| 精品久久一区| 国产88av| 国产麻豆一区二区| 日日夜夜精品免费看| 91久久综合亚洲鲁鲁五月天| 丰满岳乱妇在线观看中字| 国产99视频精品免视看芒果| 色偷偷一区二区三区| 欧美日韩一区二区三区在线播放| 黄色91在线观看| 国产欧美日韩中文字幕| 91看片app| 国v精品久久久网| 欧美在线一区二区视频| 91狠狠操| 午夜爽爽爽男女免费观看| 日韩女女同一区二区三区| 91在线一区| 国产69精品久久| 亚洲精品国产一区| 免费午夜在线视频| 国产中文字幕91| 日韩一级免费视频| 久久99中文字幕| 制服丝袜视频一区| 国产经典一区二区| 狠狠色丁香久久综合频道 | 国产乱人伦精品一区二区三区| 国模少妇一区二区三区| 国产日韩欧美精品一区二区 | 又黄又爽又刺激久久久久亚洲精品| 国产欧美日韩va另类在线播放| 日本高清一二区| 99精品视频免费看| 91视频国产九色| 欧美激情精品久久久久久免费| 久久一区二区精品视频| 午夜看片网址| 亚洲一区中文字幕| 91一区在线观看| 午夜剧场一区| 97人人模人人爽视频一区二区 | 欧美一区二区三区久久精品视 | 国产一区免费在线观看| 国产精品99999999| 国产清纯白嫩初高生在线观看性色| 久久久国产精品一区| 色综合久久精品| 欧美极品少妇xxxxⅹ| 日日噜噜夜夜狠狠| 少妇久久免费视频|