[發明專利]一種基于數據挖掘技術的文本多精度表示方法有效
| 申請號: | 200810079685.8 | 申請日: | 2008-11-04 |
| 公開(公告)號: | CN101436194A | 公開(公告)日: | 2009-05-20 |
| 發明(設計)人: | 陳勇;張佳驥 | 申請(專利權)人: | 中國電子科技集團公司第五十四研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 050081河北省石家*** | 國省代碼: | 河北;13 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 數據 挖掘 技術 文本 精度 表示 方法 | ||
1.一種基于數據挖掘技術的文本多精度表示方法,用于文本檢索系統,它包括步驟:
①對文本進行分詞處理,停用詞過濾處理;
其特征在于還包括步驟:
②根據數據挖掘技術設計詞關聯挖掘算法,對分詞及停用詞過濾處理后的文本進行多層次文本特征抽取;
詞關聯挖掘算法包括步驟:給定一篇文檔D,
(1)抽取出D中所有的句子形成集合S={s1,s2,……,sn},其中s1,s2,……,sn代表文檔中的句子;
(2)D中出現的詞構成集合C1,統計C1中各個詞在句子中出現的頻率,設定一個限定值R,把發生次數超過R的詞放入集合L1中,把未能進入L1的詞放入集合~L1中;
(3)利用集合~L1對S中的句子進行處理,其過程是去除每個句子中在~L1中出現的詞組合元素,經過處理的句子形成新的集合Snew;
(4)基于Snew中的每個句子,找出句中所有兩個詞的詞組合,形成集合C2,找出C2中每個詞組合在句子中出現的頻率,把發生頻率次數超過R的詞組合放入L2中,把未能進入L2的詞組合放入~L2中;
(5)利用集合~L2對S中的句子進行處理,其過程是去除每個句子中在~L2中出現的詞組合元素,經過處理的句子形成新的集合Snew;
(6)基于Snew中的每個句子,找出句中所有三個詞的詞組合,形成集合C3,找出C3中每個詞組合在句子中出現的頻率,把發生頻率次數超過R的詞組合放入L3中,把未能進入L3的詞組合放入~L3中;
重復上述(5)、(6)步驟,直至找出所有滿足限定值R的包含n個詞的詞組合特征,放入Ln中,n為大于3的整數,
集合L1,L2,......,Ln中的詞組合就構成了文檔D的多層次文本特征,多層次文本特征包括單個詞特征、兩詞特征、三詞特征及n個詞的特征,n為大于3的整數;
多層次文本特征表示形式為:
單個詞特征:{Word1},{Word2};
兩詞特征:{Word1,Word2},{Word3,Word4};
三詞特征:{Word1,Word2,Word3},{Word4,Word5,Word6};
n個詞特征:{Word1,Word2,……Wordn}。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國電子科技集團公司第五十四研究所,未經中國電子科技集團公司第五十四研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810079685.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種道路照明節能的系統方法
- 下一篇:無線網絡接入方法、裝置和系統
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





