[發(fā)明專(zhuān)利]一種面向有意義串挖掘的重復(fù)串提取方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201010117305.2 | 申請(qǐng)日: | 2010-03-04 |
| 公開(kāi)(公告)號(hào): | CN101794308A | 公開(kāi)(公告)日: | 2010-08-04 |
| 發(fā)明(設(shè)計(jì))人: | 王巍;楊武;苘大鵬;董紅臣 | 申請(qǐng)(專(zhuān)利權(quán))人: | 哈爾濱工程大學(xué) |
| 主分類(lèi)號(hào): | G06F17/30 | 分類(lèi)號(hào): | G06F17/30 |
| 代理公司: | 暫無(wú)信息 | 代理人: | 暫無(wú)信息 |
| 地址: | 150001 黑龍江省哈爾濱市南崗區(qū)南通*** | 國(guó)省代碼: | 黑龍江;23 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 面向 有意義 挖掘 重復(fù) 提取 方法 裝置 | ||
1.一種面向有意義串挖掘的重復(fù)串提取方法,用于利用計(jì)算機(jī)技術(shù)輔助網(wǎng) 絡(luò)信息智能分析或輿情管理,包括下列步驟:
步驟A:語(yǔ)料預(yù)處理;
步驟B:重復(fù)串提?。?
步驟C:重復(fù)串修剪;
其特征是:
所述步驟A包括些下列步驟:
步驟A1,將網(wǎng)頁(yè)中的數(shù)據(jù)去除標(biāo)簽后格式化成文本形式,將文本中的特殊 符號(hào)用分隔符號(hào)代替,采用空格作為分隔符,然后將文本中出現(xiàn)的所有符號(hào)都 轉(zhuǎn)化成對(duì)應(yīng)的ID表示;
所述步驟B包括些下列步驟:
步驟B1,從文本中提取重復(fù)串,記錄重復(fù)串以及其出現(xiàn)的次數(shù),過(guò)濾掉頻 次低于閾值和長(zhǎng)度小于閾值的重復(fù)串;
所述步驟C包括些下列步驟:
步驟C1,對(duì)于長(zhǎng)度大于閾值的重復(fù)串,利用對(duì)該串進(jìn)行分詞后的詞性類(lèi)別 將該串分割成若干子串;對(duì)于含有空格的重復(fù)串,以空格為分隔符號(hào)把該串分 割成若干子串;同時(shí)對(duì)重復(fù)串進(jìn)行去停用詞處理工作。
2.根據(jù)權(quán)利要求1所述的一種面向有意義串挖掘的重復(fù)串提取方法,其特 征是所述步驟A1包括些下列步驟:
步驟A11,去除網(wǎng)頁(yè)標(biāo)簽,提取網(wǎng)頁(yè)中的正文;
步驟A12,將網(wǎng)頁(yè)編碼轉(zhuǎn)化成GB2312格式編碼;
步驟A13,根據(jù)GB2312的編碼格式保留文本中出現(xiàn)的漢字、英文、數(shù)字符 號(hào),將其他符號(hào)用空格符代替;
步驟A14,去掉文本中首尾出現(xiàn)的空格;若文本中連續(xù)出現(xiàn)空格,則只保 留一個(gè)空格;
步驟A15,將文本中的漢字、英文、數(shù)字、空格符號(hào)分別轉(zhuǎn)化成對(duì)應(yīng)的ID 值,ID值為其ASCII碼的整數(shù)值。
3.根據(jù)權(quán)利要求1或2所述的一種面向有意義串挖掘的重復(fù)串提取方法, 其特征是所述步驟B1包括些下列步驟:
步驟B11,提取該文本的重復(fù)串,記錄文本中出現(xiàn)的重復(fù)串和重復(fù)串的次 數(shù),刪除頻次低于閾值和長(zhǎng)度小于閾值的重復(fù)串;
步驟B12,將重復(fù)串的ID組合形式轉(zhuǎn)換成相對(duì)應(yīng)的字符組合形式。
4.根據(jù)權(quán)利要求1或2所述的一種面向有意義串挖掘的重復(fù)串提取方法, 其特征是所述步驟C1包括下列步驟:
步驟C11,刪除重復(fù)串中含有的停用詞,如果刪除后重復(fù)串的長(zhǎng)度過(guò)短, 則刪除該重復(fù)串;
步驟C12,去掉重復(fù)串首尾空格,并過(guò)濾掉長(zhǎng)度小于閾值的重復(fù)串;
步驟C13,去除粘性字符;
步驟C14,以空格為分隔符號(hào),把含有空格的重復(fù)串分割成若干子串,如 果子串已經(jīng)在重復(fù)串集合中出現(xiàn)過(guò),則刪除該子串;否則統(tǒng)計(jì)該子串出現(xiàn)的頻 次,并將該子串加入到重復(fù)串集合中;
步驟C15,如果重復(fù)串的長(zhǎng)度小于閾值,則轉(zhuǎn)入步驟C18;否則轉(zhuǎn)入步驟 C16;
步驟C16,對(duì)長(zhǎng)度大于閾值的重復(fù)串進(jìn)行分詞,并對(duì)分詞后的詞性結(jié)果進(jìn) 行掃描,如果前一個(gè)詞的詞性是名詞詞性,后一個(gè)詞的詞性是非名詞詞性,則 把此重復(fù)串拆分成兩個(gè)子串,其中把該名詞、包括該名詞本身之前的串當(dāng)做一 個(gè)子串,把該名詞、不包括該名詞之后的串當(dāng)做另一個(gè)子串;
步驟C17,以分詞后詞性結(jié)果中的特殊詞性為分隔符號(hào)對(duì)步驟C15分割出 的子串再次進(jìn)行分割;
步驟C18,刪除不包含漢字的重復(fù)串,并對(duì)重復(fù)串進(jìn)行去重工作。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于哈爾濱工程大學(xué),未經(jīng)哈爾濱工程大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010117305.2/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)





