日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種用于信息檢索的任意大小n-gram頻率統計方法及其裝置無效

專利信息
申請號: 200910044547.0 申請日: 2009-10-16
公開(公告)號: CN102043775A 公開(公告)日: 2011-05-04
發明(設計)人: 張偉;孫星明;孫德才 申請(專利權)人: 湖南大學;張偉;孫星明;孫德才
主分類號: G06F17/30 分類號: G06F17/30
代理公司: 暫無信息 代理人: 暫無信息
地址: 410082 *** 國省代碼: 湖南;43
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 用于 信息 檢索 任意 大小 gram 頻率 統計 方法 及其 裝置
【說明書】:

技術領域

發明一般地涉及信息檢索中的n-gram頻率統計技術,尤其設計出一種在給定文本和字符串中任意長度n-gram出現頻率的快速統計方法和裝置。

技術背景

N-gram是信息檢索中常用的一種語言模型。它通過對長度為n的連續字串進行計算來完成檢索過程。計算過程中,連續字串在語言現象中的出現頻率至關重要。在n-gram中,1-gram、2-gram、3-gram被應用得最多。究其原因,是因為它們消耗的計算機資源在可被接受的范圍之內。通常,對于n-gram的計算都是基于索引的。就中文而言,GB2312-80字符集中包含了漢語中常用漢字6763個,則為了保證查找效率,1-gram的索引入口數量為6763,2-gram的索引入口數量為67632=45738169,3-gram使用的索引入口數量多達67633≈288giga。依照這種規律以幾何級數遞增下去,更大的n值消耗的計算機資源是驚人的。因此任意大小的n-gram很少被應用。然而,在通過n-gram模型對語言文字進行處理時,n越大,供語言模型參考的上下文就越多,其優勢是越明顯,在某些應用環境下,必須對大n-gram進行統計計算。

現有的解決該問題的方法包括兩類:對索引進行壓縮;對一定范圍內的n值進行處理。

在真實的語言現象中,很多字符之間不存在搭配關系。在構建索引時,如果考慮到所有理論上的可能性,隨著n增大,數據稀疏的情況越來越嚴重,系統資源浪費驚人。對索引進行壓縮就是基于這樣一種思路,即去除掉那些不可能出現的字符搭配情況,盡可能消除數據稀疏的現象。

這種方法的缺點在于:

1、這種方法雖然在一定程度上對n值增大后的索引空間增速有所改善,但這種改善是有限的,不能對任意大小的n值進行處理。同時,壓縮和解壓縮的過程也會降低系統效率。

2、所有語言文字處理的本質都是對文字符號編碼的處理。在構建索引時,編碼的連續性對于檢索效率有非常大的影響,而索引壓縮破壞了這種連續性。因此,檢索效率不高。

對一定范圍內的n值進行處理,具有代表性的方法是Suffix?Array。該方法通過如下步驟對n-gram進行統計:

1、將整個文本視為一個字符串,以每個字符作為起點,以文本結束位置作為終點,提取子串;

2、對所子串進行排序;

3、統計排序后相鄰子串之間的最長相同前綴長度,并記錄下來;

4、通過比較n值和所記錄的最長前綴的長度,若前綴長度大于n,則對應的n-gram頻率加1,如此進行下去,直到得出最終的統計值。

該方法的局限性在于:

1、對文本進行預處理時,需要進行排序操作。若語料庫規模大,則排序時間較長。若對語料庫進行擴充,則需要重新排序;

2、它可以處理比較大的n值,但無法處理任意大小的n值。n值由保存相鄰子串最長相同前綴的單元大小決定,例如當保存共同前綴長度的單元為1字節,則它能統計的n-gram最大為28-1=255。

發明內容

有鑒于此,本發明實施例提供了一種能對任意大小n-gram進行頻率統計的方法,克服了現有n-gram頻率統計方法的時間復雜度高,不能對任意n值進行統計的缺陷。

本發明實施例是通過以下技術方案實現的:

文本預處理;

構建變長二級變長索引,保存和檢索給定文本和字符串中的2-gram位置值;

基于2-gram的任意n-gram頻率統計。

本發明實施例還提供一種任意大小n-gram頻率統計裝置,包括:文本預處理模塊,索引生成模塊,頻率計算模塊。其中:

文本預處理模塊,切分給定的文本和字符串,得到2-gram,將2-gram中的漢字(GB2312-80)映射到從0開始的連續整數空間;

索引生成模塊,將得到的2-gram位置值信息存儲到變長二級變長索引中;

頻率計算模塊,根據不同的n值,對n-gram進行2-gram切分。從索引中檢索相關2-gram位置值列表,通過并集或交集運算得到其位置值列表,從而得到其使用頻率。

由上述本發明例的具體技術實施方案可以看出,本發明實施例對n-gram的統計都是建立在2-gram索引基礎之上的。在變長二級變長索引中保存給定文本和字符串中所有出現過的2-gram的入口,消除了很大一部分數據稀疏的情況,節省了存儲空間。同時,相鄰索引入口對應的漢字編碼的連續性得到了保證,可以實現對2-gram的高效檢索。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖南大學;張偉;孫星明;孫德才,未經湖南大學;張偉;孫星明;孫德才許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/200910044547.0/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 麻豆精品久久久| 欧美日韩激情一区| 日韩精品福利片午夜免费观看| 国产色婷婷精品综合在线播放| 日本一二三四区视频| 91午夜在线观看| 国产精品视频二区不卡| 精品国产九九| 亚洲欧美色一区二区三区| 欧美一区免费| 久久激情网站| 午夜av男人的天堂| 亚洲国产精品精品| 日韩精品免费一区二区中文字幕| 男人的天堂一区二区| 国产真实一区二区三区| 国产免费区| 久久96国产精品久久99软件| 91麻豆产精品久久久| www.成| 麻豆精品一区二区三区在线观看| 国产精品日韩电影| 欧美激情在线观看一区| 国产精品偷乱一区二区三区| 91精品一二区| 91精品www| 性少妇freesexvideos高清bbw| 在线电影一区二区| 天摸夜夜添久久精品亚洲人成| 欧美午夜羞羞羞免费视频app | 国产精品二区一区| 欧美freesex极品少妇| 午夜激情电影院| 欧美日韩卡一卡二| 91精品国产九九九久久久亚洲| 欧美在线播放一区| 中文字幕一区二区三区免费| 午夜看片网站| 夜夜夜夜曰天天天天拍国产| 国产二区不卡| 国产性猛交xx乱| 蜜臀久久99精品久久一区二区| 亚洲免费永久精品国产 | 国产精品麻豆一区二区三区| 亚洲高清毛片一区二区| 三级视频一区| 国产美女三级无套内谢| 狠狠色噜噜狠狠狠狠综合久| 少妇又紧又色又爽又刺激视频网站| 国产日韩欧美在线影视| 亚洲乱在线| 午夜毛片影院| 久久乐国产精品| 性色av色香蕉一区二区三区| 久久国产精品久久| 视频一区二区三区中文字幕| 国产理论一区| 久久精品二| 国产午夜精品一区理论片飘花| 欧美精品免费一区二区 | 国产乱人乱精一区二视频国产精品| 国产99网站| 夜夜躁日日躁狠狠躁| 国产精品视频久久久久久| 国产专区一区二区| 午夜电影网一区| 国产乱子一区二区| 国产88在线观看入口| 99国产伦精品一区二区三区 | 中文字幕av一区二区三区四区| 蜜臀久久99精品久久久| 国产福利精品一区| 私人影院av| 性精品18videosex欧美| 国产aⅴ精品久久久久久| 狠狠色狠狠色88综合日日91| 狠狠躁夜夜躁2020| 性夜影院在线观看| 久久激情综合网| 午夜天堂电影| 国产69精品福利视频| 鲁丝一区二区三区免费观看 | 一色桃子av大全在线播放| 久久婷婷国产综合一区二区| 亚洲二区在线播放视频| 欧美一级不卡| 91九色精品| 日韩一区高清| 国产精品日韩视频| 国产一级不卡毛片| 精品国产区| 日韩av在线影院| 久久精品国产亚| 久久网站精品| 欧美性xxxxx极品少妇| 91超碰caoporm国产香蕉| 久久国产精品麻豆| 国产一区二区免费在线| 91性高湖久久久久久久久_久久99| 欧美片一区二区| 欧美精品一区久久| 99久久夜色精品| 日韩欧美激情| 男人的天堂一区二区| www.日本一区| 2023国产精品久久久精品双| 午夜一区二区视频| 91国产在线看| 日韩欧美中文字幕精品| 久久五月精品| 狠狠躁狠狠躁视频专区| 国产经典一区二区| 国产欧美一区二区三区沐欲| 精品国产乱码久久久久久久| 免费高潮又黄又色又爽视频| 久久99久久99精品蜜柚传媒| 欧美一区二区久久久| 68精品国产免费久久久久久婷婷 | 91看片免费| 亚洲二区在线播放视频| 国产欧美亚洲一区二区| 国产欧美一区二区三区在线播放| xx性欧美hd| 国产亚洲精品综合一区| 一区二区欧美视频| 亚洲精品一品区二品区三品区| 欧美日韩九区| 午夜影院黄色片| 久久综合久久自在自线精品自 | 久久中文一区| 欧美一区二区三区激情| 国产91丝袜在线播放动漫| 99精品一区二区| 亚州精品中文| 日本一区二区高清| 国产精一区二区| 午夜叫声理论片人人影院| 久久久久久久久久国产精品| 性生交大片免费看潘金莲| 日本激情视频一区二区三区| aaaaa国产欧美一区二区| 亚洲乱视频| 韩国视频一区二区| 国产91在线播放| 国产三级欧美三级日产三级99| 亚洲欧洲另类精品久久综合| 日韩国产精品久久| 日本精品一区在线| 日本精品视频一区二区三区| 日韩精品一区中文字幕| 精品videossexfreeohdbbw| 欧美日韩一区二区电影| 亚洲国产精品国自产拍av| 91精品国产九九九久久久亚洲| 日本三级韩国三级国产三级| 欧美精品二区三区| 午夜一级电影| 亚洲一区欧美| 国模精品免费看久久久| 538国产精品| 亚洲欧美一区二| 国产一区免费播放| 久久一区二区三区视频| 一区二区午夜| 国产一区日韩在线| 久久久精品a| 在线观看欧美日韩国产| 欧美一区二区三区激情在线视频| 日本亚洲国产精品| 国产视频精品一区二区三区| 欧美在线一级va免费观看| 国产精品美乳在线观看| 国产91清纯白嫩初高中在线观看| 国产精品视频二区不卡| 国产精品麻豆自拍| 国产69精品久久99不卡免费版| 国产精品久久免费视频在线| 精品国产乱码久久久久久软件影片| 久久久999精品视频| 91av中文字幕| 国产精品视频久久久久久久 | 国产一级片子| 国产一区=区| 91热精品| www色视频岛国| 99久久精品国| 玖玖国产精品视频| 日韩精品一区二区三区不卡| 国产日韩精品久久| 爱看av在线入口| 国产高清在线精品一区二区三区| 欧美一区亚洲一区| 日本精品视频一区二区三区 | 国产精品女同一区二区免费站| 四虎久久精品国产亚洲av| 亚洲精品人| 欧美精品五区| 视频一区二区国产| 91超薄丝袜肉丝一区二区| 欧美精品第一区| 国产日韩一区二区三免费| 欧美三区二区一区| 一本大道久久a久久精品| 亚洲精品久久久久不卡激情文学| 国产偷自视频区视频一区二区| 国产综合亚洲精品| 四虎国产精品永久在线| 一色桃子av大全在线播放| 久久久久国产精品www| 国产精品国产一区二区三区四区 | 国产偷亚洲偷欧美偷精品 | 国产精品入口麻豆九色| 国产精品日产欧美久久久久| 国产人澡人澡澡澡人碰视| 国产韩国精品一区二区三区| 毛片免费看看| 精品国产一二区| 国产欧美亚洲精品第一区软件| 中文字幕一区二区三区四| 亚洲视频h| 欧美一区二区久久| 国产欧美日韩精品一区二区三区| 久久99国产精品久久99| 在线观看欧美日韩国产| 91av精品| 国产乱xxxxx97国语对白| 日本午夜无人区毛片私人影院| 日韩美一区二区三区| 欧美一级片一区| 91麻豆精品国产91久久久无限制版| 日本高清不卡二区| xoxoxo亚洲国产精品| 国产精品久久久久久久妇女| 欧美日韩国产综合另类| 亚洲五码在线| 久久人人爽爽| 亚洲欧美中日精品高清一区二区 | 国产欧美日韩精品一区二区图片| 26uuu色噜噜精品一区二区| 一级午夜电影| 国产在线一区观看| 午夜激情电影在线播放| 国产精品电影一区| 国产精品香蕉在线的人| 午夜情所理论片| 久久久久国产亚洲|