[發(fā)明專利]一種基于詞語關(guān)聯(lián)的數(shù)據(jù)分割搜索方法有效
| 申請?zhí)枺?/td> | 201810315126.6 | 申請日: | 2018-04-10 |
| 公開(公告)號: | CN108563735B | 公開(公告)日: | 2021-07-27 |
| 發(fā)明(設(shè)計)人: | 錢仲文;王鋒華;張旭東;張建松;黃建平;陳浩;陳俊;紀德良;姜小建;楊少杰;吳翔;琚小明;邢雅菲;張全;于曉蝶 | 申請(專利權(quán))人: | 國網(wǎng)浙江省電力有限公司;浙江華云信息科技有限公司;華東師范大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/31;G06F40/284 |
| 代理公司: | 上海藍迪專利商標事務(wù)所(普通合伙) 31215 | 代理人: | 徐筱梅;張翔 |
| 地址: | 310007*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 詞語 關(guān)聯(lián) 數(shù)據(jù) 分割 搜索 方法 | ||
1.一種基于詞語關(guān)聯(lián)的數(shù)據(jù)分割搜索方法,該方法包括以下具體步驟:
步驟1:獲取需要建索引文本的分詞集合;
對一文本,在不考慮詞出現(xiàn)的頻率和順序信息情況下,采用基于詞典或者基于規(guī)則的方法對文本進行分詞處理,得到文本的分詞集;
步驟2:獲取文本的頻繁詞集,進行如下操作:
a)設(shè)置詞wi的c-頻繁詞集的支持度為式其中tfi表示詞wi在文本中出現(xiàn)的段數(shù)量,c表示頻繁詞集規(guī)模大小;
b)通過向下閉合的方法對文本尋找出滿足條件的(t-1)-頻繁詞集,找出該集合中所有只有最后一個詞條不同的頻繁詞集對,合并每對頻繁詞集對成一個規(guī)模為s的頻繁詞集候選集;
c)對于每個s-頻繁詞集候選集生成其所有規(guī)模為(s-1)-頻繁詞集,如果(s-1)-頻繁詞集集合不是(t-1)-頻繁集詞集集合的子集,或者該頻繁詞集小于其規(guī)定的mindown(c)支持度,剔除該頻繁詞集;
d)重復a),b),c)過程,尋找出文本中的所有頻繁詞集;
步驟3:對步驟2)生成的所有頻繁詞集集合,利用選取分割文本的τopt-頻繁詞集,式中的tj表示一個頻繁詞集,t表示頻繁詞集集合總的數(shù)量,count函數(shù)用來計算一個頻繁詞集中的詞規(guī)模數(shù)量;
步驟4:利用τopt-頻繁詞集分割文本來形成子文本集file={fg|g=1,2,...,f},fg表示分割形成的子文本,f是分割后的子文本數(shù)量;
步驟5:構(gòu)建基于詞匯關(guān)聯(lián)的分割子文本索引
a)將file={fg|g=1,2,...,f}利用偽隨機函數(shù)分成兩個文本集filea={fga|a=1,2,...,r},fileb={fgb|a=1,2,...,s};這里r+s=f;f是文本分割后的子文本數(shù)量,r和s分別表示兩個集合filea和fileb的規(guī)模大小;
b)對任一個子文本,為它的首部添加三個標志位,code,MF,DF;code幫助標記文本歸屬,MF位判斷是否是最后子文本,DF表示文本位置信息標記;
c)獲得子文本關(guān)鍵詞集和頻繁詞集;結(jié)合文本詞詞向量來構(gòu)建篩選搜索文本的關(guān)鍵詞,公式為γ=β=0.5,其中fij表示詞匯wi出現(xiàn)在段落j的次數(shù),m表示文本的總的段落數(shù),tfi表示詞匯wi出現(xiàn)在文本中的段數(shù)量,Θ(file)閥值由用戶定義,用于調(diào)節(jié)選取構(gòu)建文本索引關(guān)鍵詞集合規(guī)模,以此來獲取子文本構(gòu)建索引的關(guān)鍵詞集;
d)對于兩子文本集合中的任意子文本,按照屬于filea的子文本存儲私有云,屬于fileb的子文本存儲公有云,利用子文本在b)生成的文本關(guān)鍵詞集和子文本存儲的云地址建索引;
e)重復b),c),d)過程,完成對所有子文本索引的構(gòu)建;
步驟6:搜索文本時,用戶提供密鑰和搜索門閥值,獲得密文子文本;利用子文本的標志位信息完整還原原文檔。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國網(wǎng)浙江省電力有限公司;浙江華云信息科技有限公司;華東師范大學,未經(jīng)國網(wǎng)浙江省電力有限公司;浙江華云信息科技有限公司;華東師范大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810315126.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 關(guān)聯(lián)裝置
- 數(shù)據(jù)關(guān)聯(lián)裝置和數(shù)據(jù)關(guān)聯(lián)方法
- 安全關(guān)聯(lián)
- 設(shè)備關(guān)聯(lián)
- 終端關(guān)聯(lián)裝置和終端關(guān)聯(lián)方法
- 關(guān)聯(lián)方法和關(guān)聯(lián)設(shè)備
- 關(guān)聯(lián)方法和關(guān)聯(lián)設(shè)備
- 關(guān)聯(lián)方法和關(guān)聯(lián)設(shè)備
- 關(guān)聯(lián)分析方法和關(guān)聯(lián)分析系統(tǒng)
- 報文關(guān)聯(lián)方法、報文關(guān)聯(lián)裝置及報文關(guān)聯(lián)系統(tǒng)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





