日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發(fā)明專(zhuān)利]一種基于語(yǔ)義壓縮的文檔存儲(chǔ)方法有效

專(zhuān)利信息
申請(qǐng)?zhí)枺?/td> 201210329421.X 申請(qǐng)日: 2012-09-08
公開(kāi)(公告)號(hào): CN102867048A 公開(kāi)(公告)日: 2013-01-09
發(fā)明(設(shè)計(jì))人: 曾嘉;曹小琴;嚴(yán)建峰;劉曉升 申請(qǐng)(專(zhuān)利權(quán))人: 蘇州大學(xué)
主分類(lèi)號(hào): G06F17/30 分類(lèi)號(hào): G06F17/30
代理公司: 蘇州創(chuàng)元專(zhuān)利商標(biāo)事務(wù)所有限公司 32103 代理人: 陶海鋒
地址: 215123 江蘇省*** 國(guó)省代碼: 江蘇;32
權(quán)利要求書(shū): 查看更多 說(shuō)明書(shū): 查看更多
摘要:
搜索關(guān)鍵詞: 一種 基于 語(yǔ)義 壓縮 文檔 存儲(chǔ) 方法
【說(shuō)明書(shū)】:

技術(shù)領(lǐng)域

發(fā)明涉及一種計(jì)算機(jī)文檔存儲(chǔ)方法,具體涉及一種基于語(yǔ)義壓縮的文檔存儲(chǔ)方法。

背景技術(shù)

隨著計(jì)算機(jī)技術(shù)的發(fā)展和網(wǎng)絡(luò)技術(shù)的廣泛應(yīng)用,由計(jì)算機(jī)處理的文檔數(shù)量急劇增加,信息的存儲(chǔ)、檢索和傳送對(duì)存儲(chǔ)設(shè)備的容量、處理系統(tǒng)的內(nèi)存、傳輸網(wǎng)絡(luò)的帶寬等提出了越來(lái)越高的要求。如果能夠?qū)Υ鎯?chǔ)的文件進(jìn)行有效的壓縮,對(duì)于減少存儲(chǔ)需求,加快數(shù)據(jù)檢索將起到重要的作用。

現(xiàn)有技術(shù)中,對(duì)于文檔的壓縮存儲(chǔ)的研究,基本上都局限于文檔的無(wú)損壓縮技術(shù),通過(guò)以二進(jìn)制方式對(duì)計(jì)算機(jī)文檔進(jìn)行壓縮,減小存儲(chǔ)中占用的冗余空間,從而減小文檔對(duì)存儲(chǔ)空間的要求。這種方式能夠減小文檔存儲(chǔ)空間,但是由于需要保留全部的文檔信息,存儲(chǔ)空間難以進(jìn)一步縮小。

文檔的語(yǔ)義壓縮是將文檔用主題進(jìn)行描述,通過(guò)主題來(lái)反映文檔,確定文檔的類(lèi)別。主題信息遠(yuǎn)遠(yuǎn)小于文檔信息,但是主題信息能充分體現(xiàn)文檔信息。由此,用少量主題信息就能刻畫(huà)文檔信息,從而實(shí)現(xiàn)文檔的語(yǔ)義壓縮。語(yǔ)義壓縮屬于有損壓縮,其壓縮比跟選取的主題數(shù)目相關(guān)。主題數(shù)目越大,壓縮精度越高,但是壓縮比低(壓縮比定義為壓縮前所占用的存儲(chǔ)空間除以壓縮后所占用的存儲(chǔ)空間)。反之,主題數(shù)目越小,壓縮精度低,但是壓縮比高。通常,主題數(shù)目根據(jù)實(shí)際需求進(jìn)行設(shè)定。

文檔的語(yǔ)義壓縮的實(shí)現(xiàn)原理是:把文檔表示為單詞的集合,主題表示成單詞的分布,某個(gè)主題用該主題中出現(xiàn)頻率最高的若干單詞來(lái)表示;根據(jù)文檔和單詞的關(guān)系以及主題和單詞的關(guān)系,把文檔變?yōu)槿舾蓚€(gè)主題的多項(xiàng)分布,即某幾個(gè)主題組成了一個(gè)文檔,一個(gè)文檔用幾個(gè)主題來(lái)描述。

文檔的信息的表示用W×D矩陣進(jìn)行表示,W是語(yǔ)料庫(kù)的單詞表,D是文檔的集合,W×D矩陣記錄了單詞表中的單詞在文檔中出現(xiàn)的次數(shù),如表1所示,W0D0對(duì)應(yīng)的元素值為3,表示單詞表中索引號(hào)為0的單詞W0在第D0篇文檔中出現(xiàn)3次。

表1??W×D矩陣

?通過(guò)對(duì)文檔信息的迭代處理,得到主題在單詞表的分布phi矩陣和文檔在主題的分布theta矩陣,如表2和表3所示。當(dāng)文檔數(shù)量比較大時(shí),如幾千萬(wàn)篇文檔,W×D矩陣是一個(gè)極其龐大的矩陣,將W×D矩陣分解為phi矩陣和theta矩陣,就可以實(shí)現(xiàn)語(yǔ)義信息的壓縮,方便存儲(chǔ),為后續(xù)的文檔分析、數(shù)據(jù)挖掘、信息檢索等操作提供方便。

表2??主題在單詞表的分布?phi矩陣

表3??文檔在主題的分布theta矩陣

目前,常用的語(yǔ)義壓縮方法有吉布斯采樣(Gibbs?Sampling?or?GS)和變分貝葉斯(Variational?Bayes?or?VB)兩種方法。

吉布斯采樣方法對(duì)每篇文檔的單詞元進(jìn)行掃描。單詞元是文檔中單詞索引重復(fù)出現(xiàn)的實(shí)例。例如,“家”這個(gè)單詞在文檔中出現(xiàn)10次,那么就有10個(gè)“家”單詞元。每掃描一個(gè)單詞元,吉布斯采樣方法就推理出單詞元在主題上的語(yǔ)義分布,然后從該分布中隨機(jī)采樣一個(gè)主題賦予該單詞元。如果文檔中存在許多重復(fù)的單詞元,例如“家”重復(fù)1000次,吉布斯采樣方法的掃描時(shí)間就會(huì)大大增長(zhǎng)。同時(shí),從單詞元的主題分布中采樣主題會(huì)丟掉分布中的部分信息,也使得語(yǔ)義壓縮的精度不高。通過(guò)多次掃描(通常大于500次)整個(gè)文檔集合,吉布斯采樣方法推理得到每篇文檔的主題分布參數(shù),以及每個(gè)主題在單詞表上的分布參數(shù),實(shí)現(xiàn)了語(yǔ)義壓縮的目標(biāo)。以10000篇文檔,每篇文檔含有100個(gè)單詞元為例,假設(shè)掃描一個(gè)單詞元并壓縮其語(yǔ)義需要0.00001秒,當(dāng)主題數(shù)目J=10,理論上吉布斯方法需要0.00001秒×10主題×10000文檔×100單詞元×500循環(huán)?=?50000秒時(shí)間完成語(yǔ)義壓縮。

變分貝葉斯方法僅對(duì)每篇文檔的單詞索引進(jìn)行掃描,例如文檔中“家”重復(fù)出現(xiàn)1000次,變分貝葉斯方法僅需掃描一次“家”在單詞表中的索引即可。這樣,變分貝葉斯方法在掃描整個(gè)文本集合方面比吉布斯采樣方法更有效率。但是,變分貝葉斯方法在推理每個(gè)單詞索引的語(yǔ)義信息時(shí)引入了復(fù)雜的digamma操作,該操作實(shí)際上消耗4-6倍于普通操作的時(shí)間。同時(shí),digamma操作也給語(yǔ)義壓縮帶來(lái)了誤差。如果掃描10000篇文檔,每篇文檔雖然含有100個(gè)單詞元,但是單詞索引數(shù)目是50個(gè),那么理論上變分貝葉斯方法需要0.00001秒×10主題×10000文檔×50單詞索引×500循環(huán)×5倍digamma操作?=?125000秒。

可見(jiàn),吉布斯采樣和變分貝葉斯方法對(duì)語(yǔ)義壓縮都存在速度慢、精度不高的缺點(diǎn)。

發(fā)明內(nèi)容

下載完整專(zhuān)利技術(shù)內(nèi)容需要扣除積分,VIP會(huì)員可以免費(fèi)下載。

該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于蘇州大學(xué),未經(jīng)蘇州大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201210329421.X/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。

×

專(zhuān)利文獻(xiàn)下載

說(shuō)明:

1、專(zhuān)利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專(zhuān)利說(shuō)明書(shū);

2、支持發(fā)明專(zhuān)利 、實(shí)用新型專(zhuān)利、外觀設(shè)計(jì)專(zhuān)利(升級(jí)中);

3、專(zhuān)利數(shù)據(jù)每周兩次同步更新,支持Adobe PDF格式;

4、內(nèi)容包括專(zhuān)利技術(shù)的結(jié)構(gòu)示意圖流程工藝圖技術(shù)構(gòu)造圖

5、已全新升級(jí)為極速版,下載速度顯著提升!歡迎使用!

請(qǐng)您登陸后,進(jìn)行下載,點(diǎn)擊【登陸】 【注冊(cè)】

關(guān)于我們 尋求報(bào)道 投稿須知 廣告合作 版權(quán)聲明 網(wǎng)站地圖 友情鏈接 企業(yè)標(biāo)識(shí) 聯(lián)系我們

鉆瓜專(zhuān)利網(wǎng)在線(xiàn)咨詢(xún)

周一至周五 9:00-18:00

咨詢(xún)?cè)诰€(xiàn)客服咨詢(xún)?cè)诰€(xiàn)客服
tel code back_top
主站蜘蛛池模板: 国产999久久久| 男女视频一区二区三区| 日本美女视频一区二区| 91精品美女| 国产精品久久久久久久久久不蜜月| 亚洲精品乱码久久久久久麻豆不卡| 久久免费视频99| 一二三区欧美| 亚洲国产美女精品久久久久∴| 久久国产精品广西柳州门| 午夜影院一区二区| 欧美日韩一区二区三区在线播放| 一区二区三区国产精品视频| 国产理论片午午午伦夜理片2021| 国产一区在线视频观看| 国产精品5区| 一区二区免费播放| 激情欧美日韩| 国产69精品久久久久孕妇不能看| 在线亚洲精品| 欧美日韩一区电影| 久久综合国产精品| 国产精品视频1区2区3区| 亲子乱子伦xxxx| 亚洲自拍偷拍中文字幕| 国产二区免费视频| 日本一区二区三区中文字幕| 午夜影院毛片| 日韩精品久久久久久久酒店| 久久国产精彩视频| 国产日韩欧美专区| 日韩国产精品久久久久久亚洲| 午夜特片网| 亚洲自拍偷拍一区二区三区| 国产精品久久久久久一区二区三区| 公乱妇hd在线播放bd| 色乱码一区二区三区网站| 97精品国产97久久久久久免费| 国产三级精品在线观看| 国内少妇自拍视频一区| 中文字幕亚洲欧美日韩在线不卡| 97涩国一产精品久久久久久久| **毛片免费| 欧美日韩中文字幕一区| 国产精品一区二区三| 午夜码电影| 欧美一级不卡| 免费精品一区二区三区第35| www.午夜av| 国产99视频精品免视看芒果| 91制服诱惑| 午夜在线观看av| 狠狠色噜噜狠狠狠888奇米| 少妇又紧又色又爽又刺激的视频| 亚洲精品日日夜夜| 欧美性xxxxx极品少妇| 97人人添人人爽一区二区三区| 曰韩av在线| 国产69精品久久久久久野外| 强行挺进女警紧窄湿润| 精品一区二区超碰久久久| 91国产一区二区| 69久久夜色精品国产7777| 一区二区三区国产精华| 午夜国内精品a一区二区桃色| 淫片免费看| 亚洲制服丝袜在线| 国产精品欧美一区二区视频| 亚洲乱小说| 国产一区二区精品免费| 李采潭伦理bd播放| 97人人模人人爽人人喊38tv| 一区二区三区国产欧美| 国产电影精品一区| 日韩av在线播| 亚洲精品国产一区| 国产91免费在线| 亚洲欧美一卡二卡| 日本一码二码三码视频| 日韩欧美高清一区| 亚洲高清乱码午夜电影网| 国产黄一区二区毛片免下载| 欧美一区二区三区激情在线视频| 91看片淫黄大片91| 欧美网站一区二区三区| 96国产精品视频| 久久午夜精品福利一区二区 | 欧美亚洲国产日韩| 亚洲精品国产suv| 日韩av在线资源| 国产日韩精品一区二区三区| 国产精品一级在线| 欧美日韩不卡视频| 一区二区免费在线观看| 国产精品久久久久免费a∨大胸| 国产一区二区视频播放| 爽妇色啪网| 精品国产一区二区三区久久久久久 | 中文字幕欧美一区二区三区 | 日本五十熟hd丰满| 亚洲国产一区二区久久久777| 狠狠色综合欧美激情| 香港日本韩国三级少妇在线观看| 少妇自拍一区| 中文字幕天天躁日日躁狠狠躁免费| 四虎国产精品永久在线国在线 | 7777久久久国产精品| www色视频岛国| 亚洲欧洲一二三区| 欧美髙清性xxxxhdvid| 国产精品久久久久久久久久久新郎 | 5g影院天天爽入口入口| 青苹果av| 国91精品久久久久9999不卡| 99精品区| 亚洲欧美另类综合| 欧美三区二区一区| 国产伦精品一区二区三区电影| 丝袜诱惑一区二区三区| 亚洲精品欧美精品日韩精品| 中文字幕亚洲欧美日韩在线不卡| 国产精品白浆一区二区| 欧美一区二区三区免费观看视频| 日日狠狠久久8888偷色| 欧美在线观看视频一区二区| 亚洲国产aⅴ精品一区二区16| 三级视频一区| 欧美日韩一区二区高清| 久久91精品国产91久久久| 日韩精品中文字幕一区| 午夜伦理片在线观看| 免费看农村bbwbbw高潮| 国产午夜精品免费一区二区三区视频 | 一区二区三区国产精华| 国产一区影院| 亚洲精品日日夜夜| 欧美日韩国产在线一区二区三区 | 久久人做人爽一区二区三区小说| 国产一区二三| 欧美一级不卡| 狠狠色综合欧美激情| 国产69精品久久久久999小说| 国产亚洲精品久久久久久网站| 麻豆国产一区二区三区| 国产精品日韩高清伦字幕搜索| 亚洲国产精品国自产拍久久| 日韩中文字幕亚洲欧美| 91看片免费| 欧美3p激情一区二区三区猛视频| 国产极品一区二区三区| 国产一区二区免费在线| 91亚洲精品国偷拍| 麻豆国产一区二区三区| 韩国女主播一区二区| 国产高清精品一区二区| 日本伦精品一区二区三区免费| 国产免费一区二区三区四区 | 一区二区三区精品国产| 久久国产精品欧美| 亚洲精品丝袜| 中文字幕在线视频一区二区| 正在播放国产一区二区| 精品国产一区二区三区高潮视| 国产乱一区二区三区视频| 日本美女视频一区二区| 国产一区二区三区中文字幕| 欧美高清视频一区二区三区| 欧美一区二区综合| 国产88av| 国产又黄又硬又湿又黄| 国内久久久久久| 国产电影精品一区| 免费观看xxxx9999片| 中文字幕亚洲欧美日韩在线不卡| 日本一二三不卡| 久久久久久中文字幕| 国产一区日韩欧美| 国产一区在线视频播放| 国产精品视频久久久久| 亚洲乱码av一区二区三区中文在线:| 午夜一级免费电影| 午夜黄色网址| 一区二区三区电影在线观看| 国产精品综合一区二区| 午夜av片| 三级午夜片| 日韩有码一区二区三区| 香蕉视频在线观看一区二区| 激情久久久| 19videosex性欧美69| 午夜激情在线| 日韩精品一区二区免费| 亚洲精品91久久久久久| 欧美xxxxhdvideos| 日韩欧美国产中文字幕| 日韩国产精品一区二区| 国产一区二| 欧美性受xxxx狂喷水| 玖玖玖国产精品| 91麻豆精品一区二区三区| 日日狠狠久久8888偷色| 欧美精品粉嫩高潮一区二区| 一区二区在线国产| 窝窝午夜理伦免费影院| 精品视频久| 国产99久久九九精品免费| 欧美二区在线视频| 久久99国产综合精品| 国产精品视频1区2区3区| 97久久国产亚洲精品超碰热| 中文在线一区二区三区| 午夜伦理片在线观看| 精品99在线视频| 国产午夜三级一二三区| 国产日韩欧美自拍| 国产精品自拍在线观看| 国产一区二区三区伦理| 99国产精品免费观看视频re| 首页亚洲欧美制服丝腿 | 久久第一区| 精品福利一区二区| 国产激情二区| 福利电影一区二区三区| 欧美精品一区二区久久久| 欧美一区二区精品久久| 亚洲欧洲精品一区二区三区不卡| 久久99精品久久久久国产越南| 国产精品视频1区| 国产97久久| 国产一区二区伦理| 午夜电影一区| 少妇又紧又色又爽又刺激的视频 | av素人在线| 国产aⅴ一区二区| 国产国产精品久久久久| 玖玖精品国产| 国产区精品| 久久久国产精品一区| 亚洲欧美日本一区二区三区| 国产精品视频二区不卡| 欧美激情在线一区二区三区| 国产精品视频1区| 日本一区二区三区四区高清视频| 性欧美一区二区| 欧美系列一区二区| 亚洲三区在线|