[發(fā)明專利]一種借助互聯(lián)網(wǎng)自動構(gòu)建文本分類語料庫的方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201310314269.2 | 申請日: | 2013-11-12 |
| 公開(公告)號: | CN103823824B | 公開(公告)日: | 2017-04-05 |
| 發(fā)明(設(shè)計)人: | 陳清財;張亮;王丹丹;王曉龍 | 申請(專利權(quán))人: | 哈爾濱工業(yè)大學(xué)深圳研究生院 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 深圳市科吉華烽知識產(chǎn)權(quán)事務(wù)所(普通合伙)44248 | 代理人: | 羅志強(qiáng),黃震 |
| 地址: | 518000 廣東省深*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 借助 互聯(lián)網(wǎng) 自動 構(gòu)建 文本 分類 語料庫 方法 系統(tǒng) | ||
1.一種借助互聯(lián)網(wǎng)自動構(gòu)建文本分類語料庫的方法,其特征在于,包括如下步驟:
用戶提供所需的文本類別體系:即包含一個或多個層次的文本類別樹,用戶可以指定或不指定所涉及的領(lǐng)域;
網(wǎng)站結(jié)構(gòu)與內(nèi)容的采集整理:從互聯(lián)網(wǎng)中采集大量網(wǎng)站,提取并分析網(wǎng)站的內(nèi)容層次結(jié)構(gòu)和每個主題詞對應(yīng)的網(wǎng)頁內(nèi)容信息;
用戶輸入類別與網(wǎng)站結(jié)構(gòu)的匹配:將用戶輸入的文本類別與網(wǎng)站內(nèi)容結(jié)構(gòu)進(jìn)行自動匹配,一個網(wǎng)站中與某個文本類別匹配上的網(wǎng)站內(nèi)容單元所包含的網(wǎng)頁作為該文本類別的候選語料;
語料庫去噪:將從多個網(wǎng)站中匹配上的同一文本類別的候選語料合并成每個類別的候選語料庫,并對候選語料庫中每個類別下的文本進(jìn)行去噪處理,提高語料庫的質(zhì)量;
輸出語料庫:輸出去噪后的類別標(biāo)準(zhǔn)文本語料。
2.根據(jù)權(quán)利要求1所述的借助互聯(lián)網(wǎng)自動構(gòu)建文本分類語料庫的方法,其特征在于,在網(wǎng)站結(jié)構(gòu)與內(nèi)容的采集整理步驟中,對網(wǎng)站結(jié)構(gòu)與內(nèi)容的采集整理包括如下步驟:
初始種子鏈接獲取:使用門戶網(wǎng)站和領(lǐng)域內(nèi)的網(wǎng)站作為初始種子鏈接,或者由用戶指定;
網(wǎng)頁數(shù)據(jù)爬取和存儲:設(shè)置參數(shù),參數(shù)包括并行通信數(shù),每個站點(diǎn)的訪問時間間隔,遞歸爬取深度;對上述初始種子鏈接進(jìn)行遞歸抓取,同時記錄頁面間的跳轉(zhuǎn)信息,將爬取得到的網(wǎng)頁的源碼文件存儲在本地,用于后續(xù)對網(wǎng)頁的離線分析和處理;
導(dǎo)航欄提取:識別提取體現(xiàn)網(wǎng)站內(nèi)部組織結(jié)構(gòu)的導(dǎo)航欄;
有效鏈接提取:統(tǒng)計各鏈接被賦予類別的次數(shù),設(shè)置閾值,被賦予類別次數(shù)多于閾值的作為無效鏈接過濾掉,其余作為和頁面主題相關(guān)的鏈接即有效鏈接;
網(wǎng)頁內(nèi)容提取:根據(jù)非標(biāo)簽字符和標(biāo)簽數(shù)的比值來提取網(wǎng)頁的正文。
3.根據(jù)權(quán)利要求2所述的借助互聯(lián)網(wǎng)自動構(gòu)建文本分類語料庫的方法,其特征在于,在導(dǎo)航欄提取步驟中,包括如下步驟:
網(wǎng)頁的頁面分割:根據(jù)網(wǎng)頁的DOM樹將其分割成若干個塊;
基于規(guī)則過濾的導(dǎo)航欄抽取:通過制定規(guī)則對網(wǎng)頁的各個分塊進(jìn)行過濾和排序來提取導(dǎo)航欄;
基于圖結(jié)構(gòu)的導(dǎo)航欄抽取:將網(wǎng)頁之間的鏈接關(guān)系組織成圖結(jié)構(gòu),尋找極大連通子圖,根據(jù)子圖信息對頁面的塊結(jié)構(gòu)進(jìn)行過濾來提取導(dǎo)航欄。
4.根據(jù)權(quán)利要求3所述的借助互聯(lián)網(wǎng)自動構(gòu)建文本分類語料庫的方法,其特征在于,在網(wǎng)頁的頁面分割步驟中,包括如下步驟:
網(wǎng)頁DOM樹構(gòu)造:利用DOM解析器將網(wǎng)頁解析成DOM樹;
網(wǎng)頁DOM樹化簡:利用三個規(guī)則對網(wǎng)頁DOM樹進(jìn)行化簡。
5.根據(jù)權(quán)利要求3所述的借助互聯(lián)網(wǎng)自動構(gòu)建文本分類語料庫的方法,其特征在于,在基于規(guī)則過濾的導(dǎo)航欄抽取步驟中,包括如下步驟:
網(wǎng)頁塊過濾:根據(jù)鏈接類型、鏈接唯一性、樣式表、錨文本在源碼中的距離、每個錨文本包含的最大詞數(shù)特征對網(wǎng)頁塊進(jìn)行過濾;
網(wǎng)頁剩余塊排序:通過制定公式對網(wǎng)頁中過濾后剩余的塊進(jìn)行打分并排序;
輸出候選導(dǎo)航欄:根據(jù)網(wǎng)頁剩余各塊的排名和各個塊的得分置信度來輸出候選導(dǎo)航欄。
6.根據(jù)權(quán)利要求3所述的借助互聯(lián)網(wǎng)自動構(gòu)建文本分類語料庫的方法,其特征在于,在基于圖結(jié)構(gòu)的導(dǎo)航欄抽取步驟中,包括如下步驟:
構(gòu)造頁面的鏈接關(guān)系圖:將網(wǎng)頁之間的鏈接指向關(guān)系表示成圖;
獲取極大完全子圖:從頁面的鏈接關(guān)系圖中找出所有的極大完全子圖,即:子圖中任意兩個節(jié)點(diǎn)直接相鄰,并且此子圖不被其他具有上述屬性的子圖包含;
輸出候選導(dǎo)航欄:根據(jù)極大完全子圖對頁面的塊結(jié)構(gòu)進(jìn)行過濾來得到候選導(dǎo)航欄。
7.根據(jù)權(quán)利要求2所述的借助互聯(lián)網(wǎng)自動構(gòu)建文本分類語料庫的方法,其特征在于,在網(wǎng)頁內(nèi)容提取步驟中,包括如下步驟:
網(wǎng)頁源碼行特征抽取:對網(wǎng)頁源碼中的每一行抽取二維特征,即:標(biāo)簽比和標(biāo)簽比導(dǎo)數(shù);
網(wǎng)頁源碼行聚類獲取正文:利用抽取出的二維特征和k-Means方法對網(wǎng)頁源碼中的所有行進(jìn)行聚類,保證對非正文的去除效果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于哈爾濱工業(yè)大學(xué)深圳研究生院,未經(jīng)哈爾濱工業(yè)大學(xué)深圳研究生院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310314269.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 基于網(wǎng)絡(luò)電視的互聯(lián)網(wǎng)業(yè)務(wù)處理方法和系統(tǒng)
- 互聯(lián)網(wǎng)業(yè)務(wù)接入網(wǎng)關(guān)的實(shí)現(xiàn)方法和系統(tǒng)
- 一種互聯(lián)網(wǎng)電視終端安全訪問互聯(lián)網(wǎng)的方法
- 一種互聯(lián)網(wǎng)應(yīng)用交互方法、裝置及系統(tǒng)
- 一種使用互聯(lián)網(wǎng)移動攝像終端進(jìn)行異地圖像拍攝的系統(tǒng)
- 一種網(wǎng)絡(luò)電視終端安全訪問互聯(lián)網(wǎng)的方法
- 利用區(qū)塊鏈保護(hù)用于互聯(lián)網(wǎng)資源分配的事務(wù)
- 互聯(lián)網(wǎng)廣告裝置及方法
- 中央管理服務(wù)器的互聯(lián)網(wǎng)連接方法及系統(tǒng)
- 互聯(lián)網(wǎng)節(jié)點(diǎn)中信任傳播方法、系統(tǒng)及相關(guān)產(chǎn)品
- 構(gòu)建墊、實(shí)體圖像構(gòu)建物和構(gòu)建構(gòu)建物支撐件的方法
- 支持松耦合的軟件構(gòu)建方法、系統(tǒng)及該系統(tǒng)的實(shí)現(xiàn)方法
- 版本的構(gòu)建系統(tǒng)及方法
- 工程構(gòu)建系統(tǒng)及其構(gòu)建方法
- 實(shí)例構(gòu)建方法、裝置及軟件系統(tǒng)
- 軟件構(gòu)建方法、軟件構(gòu)建裝置和軟件構(gòu)建系統(tǒng)
- 天花板地圖構(gòu)建方法、構(gòu)建裝置以及構(gòu)建程序
- 一種項目構(gòu)建方法、持續(xù)集成系統(tǒng)及終端設(shè)備
- 并行構(gòu)建的方法、裝置及設(shè)備
- 構(gòu)建肺癌預(yù)測模型構(gòu)建方法





