[發(fā)明專利]一種基于壓縮感知理論的文本數(shù)據(jù)流抽樣方法有效
| 申請(qǐng)?zhí)枺?/td> | 201510024381.1 | 申請(qǐng)日: | 2015-01-16 |
| 公開(kāi)(公告)號(hào): | CN104504156B | 公開(kāi)(公告)日: | 2017-07-11 |
| 發(fā)明(設(shè)計(jì))人: | 彭敏 | 申請(qǐng)(專利權(quán))人: | 武漢大學(xué) |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 武漢科皓知識(shí)產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙)42222 | 代理人: | 薛玲 |
| 地址: | 430072 湖*** | 國(guó)省代碼: | 湖北;42 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 壓縮 感知 理論 文本 數(shù)據(jù)流 抽樣 方法 | ||
1.一種基于壓縮感知理論的文本數(shù)據(jù)流抽樣方法,其特征在于,包括以下步驟:
步驟1:將文本數(shù)據(jù)流分割成固定大小的文本片段并通過(guò)向量空間模型表示成矩陣;
步驟2:使用壓縮感知理論對(duì)文本數(shù)據(jù)流進(jìn)行空間降維抽樣;
步驟3:計(jì)算降維后每個(gè)文本的信息熵;
步驟4:基于文本的信息熵通過(guò)對(duì)數(shù)傾斜時(shí)間LTT模型壓縮存儲(chǔ)抽樣文本。
2.根據(jù)權(quán)利要求1所述的基于壓縮感知理論的文本數(shù)據(jù)流抽樣方法,其特征在于:步驟1中所述的固定大小的文本片段由TF或TF-IDF模型表示成矩陣其中P表示固定大小文本片段中文本的數(shù)量,n為向量空間的維數(shù),L是當(dāng)前文本數(shù)據(jù)流片段的數(shù)量。
3.根據(jù)權(quán)利要求2所述的基于壓縮感知理論的文本數(shù)據(jù)流抽樣方法,其特征在于:步驟2的具體實(shí)現(xiàn)過(guò)程是,對(duì)于給定的文本片段使用高斯隨機(jī)矩陣作為測(cè)量矩陣Ф,使用壓縮理論中的公式對(duì)Xl進(jìn)行投影得到測(cè)量值實(shí)現(xiàn)空間降維,其中m≤n,計(jì)算如公式1所示:
Yl=ΦXl (公式1)。
4.根據(jù)權(quán)利要求3所述的基于壓縮感知理論的文本數(shù)據(jù)流抽樣方法,其特征在于:步驟3的具體實(shí)現(xiàn)過(guò)程是,對(duì)于降維后每個(gè)文本,第l個(gè)文本片段中的第i個(gè)文本的內(nèi)容質(zhì)量由信息熵E(i,l)來(lái)衡量,其計(jì)算如公式2所示:
E(i,l)=-Σp(tj,l)logp(tj,l) (公式2);
其中p(tj,l)是第i個(gè)文本中第j項(xiàng)在第l個(gè)片段中出現(xiàn)的頻率,tj,l∈Yii。
5.根據(jù)權(quán)利要求4所述的基于壓縮感知理論的文本數(shù)據(jù)流抽樣方法,其特征在于:步驟4的具體實(shí)現(xiàn)包括以下子步驟:
步驟4.1:首先,設(shè)LTT模型中的每個(gè)單元空間為2*P,對(duì)于目前第q個(gè)單元,檢查是否還有空間可以分配給新到達(dá)的抽樣文本片段;如果存在空閑空間P+1~2*P,則將已存放在目前第q個(gè)單元中1~P位置的文本片段移至P+1~2*P;否則,分配一個(gè)容量為2*P的新單元作為存儲(chǔ)最近到達(dá)的文本片段的單元;
步驟4.2:其次,為空出第一個(gè)單元的1~P的位置給新到達(dá)的文本片段,則需要通過(guò)舍棄在第w(1≤w≤q-1)個(gè)單元中的文本片段Yw1和Yw2中信息熵最低的文本,然后將Yw1和Yw2進(jìn)行合并并移入第(w+1)單元的1~P的位置;
步驟4.3:最后,將新到達(dá)的文本片放在第一個(gè)單元的1~P的位置;
步驟4.4:將上述步驟4.1至步驟4.3三個(gè)步驟一直循環(huán)執(zhí)行,直到不再有新的文本到達(dá),最終得到抽樣文本。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于武漢大學(xué),未經(jīng)武漢大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510024381.1/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 基于策略的業(yè)務(wù)感知模型及感知方法
- 一種基于分區(qū)感知的無(wú)線通信系統(tǒng)頻譜感知方法
- 確定空閑頻段的方法和系統(tǒng)、中心節(jié)點(diǎn)和感知節(jié)點(diǎn)
- 感知無(wú)線網(wǎng)絡(luò)的共享協(xié)作頻譜感知方法、感知節(jié)點(diǎn)和匯聚中心
- 感知無(wú)線網(wǎng)絡(luò)的協(xié)作頻譜感知方法和感知節(jié)點(diǎn)
- 頻譜感知方法、頻譜感知設(shè)備和數(shù)據(jù)庫(kù)
- 基于認(rèn)知數(shù)據(jù)庫(kù)和頻譜感知的頻譜共享方法及裝置
- 一種頂層感知限位組
- 一種自動(dòng)駕駛汽車用升降式智能感知模塊
- 感知數(shù)據(jù)獲取方法和裝置





