[發(fā)明專利]一種借助互聯(lián)網(wǎng)構(gòu)建分類語料庫的方法及系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201811032694.1 | 申請(qǐng)日: | 2018-09-05 |
| 公開(公告)號(hào): | CN109271477B | 公開(公告)日: | 2020-07-24 |
| 發(fā)明(設(shè)計(jì))人: | 閔勇 | 申請(qǐng)(專利權(quán))人: | 杭州數(shù)灣信息科技有限公司;閔勇 |
| 主分類號(hào): | G06F16/31 | 分類號(hào): | G06F16/31;G06F16/35;G06N3/08 |
| 代理公司: | 杭州杭誠專利事務(wù)所有限公司 33109 | 代理人: | 尉偉敏 |
| 地址: | 310018 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 借助 互聯(lián)網(wǎng) 構(gòu)建 分類 語料庫 方法 系統(tǒng) | ||
本發(fā)明涉及自然語言處理技術(shù),具體涉及一種借助互聯(lián)網(wǎng)構(gòu)建分類語料庫的方法,包括以下步驟:S1、設(shè)置目標(biāo)類別;S2、設(shè)置信息源;S3、信息源評(píng)級(jí);S4、信息采集和解析;S5、過濾后備文檔語料集;S6、分類語料庫輸出。本發(fā)明的實(shí)質(zhì)性效果是:在盡量降低人工干預(yù)水平的前提下,以互聯(lián)網(wǎng)中帶有明確分類標(biāo)識(shí)和動(dòng)態(tài)更新列表內(nèi)容的頁面為語料信息來源,結(jié)合網(wǎng)頁排版特征和網(wǎng)頁DOM節(jié)點(diǎn)拓?fù)浣Y(jié)構(gòu)特征,提高了網(wǎng)頁主題語料提取的準(zhǔn)確度,通過目標(biāo)類別和信息源關(guān)鍵詞的匹配評(píng)價(jià)體系,利用文本間量化相似性篩選互聯(lián)網(wǎng)動(dòng)態(tài)語料,構(gòu)建出高質(zhì)量文本分類語料庫。
技術(shù)領(lǐng)域
本發(fā)明涉及自然語言處理技術(shù),具體涉及一種借助互聯(lián)網(wǎng)構(gòu)建分類語料庫的方法及系統(tǒng)。
背景技術(shù)
隨著互聯(lián)網(wǎng)信息的高速增長,搜索引擎已成為人們?yōu)g覽網(wǎng)絡(luò)信息必不可少的工具。搜索引擎根據(jù)用戶提供的關(guān)鍵詞檢索網(wǎng)站數(shù)據(jù)庫,為用戶呈現(xiàn)其感興趣的網(wǎng)站列表。然而,很多情況下用戶很難找到準(zhǔn)確描述檢索目標(biāo)的關(guān)鍵詞,因此嚴(yán)重影響了返回結(jié)果的準(zhǔn)確率。尤其是在用戶對(duì)所需檢索的領(lǐng)域缺乏了解的情況下。同時(shí),由于需要索引的網(wǎng)頁數(shù)目過于龐大,為了兼顧準(zhǔn)確率與召回率,傳統(tǒng)的通用搜索引擎往往返回屬于不同主題的搜索結(jié)果,這種策略很難滿足單個(gè)用戶的檢索需求。
垂直搜索引擎是目前緩解這種問題最好的方案,如學(xué)術(shù)搜索、金融搜索、音樂搜索等。這類搜索引擎通過限定爬取和索引的網(wǎng)頁范圍來達(dá)到較高的檢索精度。通過用戶指定的分類來進(jìn)行搜索,可以更好的滿足用戶的不同需求。然而,對(duì)于某個(gè)概念進(jìn)行分類的方法往往是多樣的,比如計(jì)算機(jī)學(xué)科,可以分為軟件和硬件,也可以按照涉及的不同子學(xué)科分為體系結(jié)構(gòu),操作系統(tǒng),計(jì)算機(jī)網(wǎng)絡(luò)等等。現(xiàn)有的垂直搜索引擎,一般是根據(jù)領(lǐng)域?qū)<沂孪榷x好的分類方式,通過人工的方法標(biāo)注出訓(xùn)練語料來訓(xùn)練分類器。這個(gè)過程費(fèi)時(shí)費(fèi)力,結(jié)果容易受到標(biāo)注人個(gè)人傾向的影響。所以,這樣的分類方式難以滿足人們對(duì)不同領(lǐng)域的分類需求,更無法隨用戶需求的改變進(jìn)行靈活調(diào)整。同時(shí),網(wǎng)絡(luò)上有一些網(wǎng)頁是具有某些標(biāo)注信息的或者是已經(jīng)經(jīng)過初步分類的,比如門戶網(wǎng)站的導(dǎo)航欄一般都分為新聞、軍事、博客等等很多子版塊,關(guān)注于某個(gè)特定領(lǐng)域的網(wǎng)站一般都會(huì)按照相關(guān)領(lǐng)域的某種分類方式來構(gòu)造。如何構(gòu)造一種方法,使其能夠自動(dòng)利用這些已有的網(wǎng)頁分類信息來自動(dòng)構(gòu)建分類語料庫,是本發(fā)明要重點(diǎn)研究和探討的問題。
中國專利CN 103823824 B,公開日2017年4月5日,一種借助互聯(lián)網(wǎng)自動(dòng)構(gòu)建文本分類語料庫的方法及系統(tǒng),該方法包括如下步驟:用戶提供所需的文本類別體系,網(wǎng)站結(jié)構(gòu)與內(nèi)容的采集整理,用戶輸入類別與網(wǎng)站結(jié)構(gòu)的匹配,語料庫去噪,輸出語料庫。本發(fā)明的技術(shù)效果是:利用互聯(lián)網(wǎng)上各類網(wǎng)站上存在的類別標(biāo)注信息,無需專業(yè)的人員手工標(biāo)注,快速的構(gòu)建出大容量的文本分類語料庫。但其僅采用拓?fù)浣Y(jié)構(gòu)圖的方式作為處理依據(jù),忽視網(wǎng)站網(wǎng)頁的排版,準(zhǔn)確性不高。
中國專利CN 103473280 B,公開日2017年2月8日,一種網(wǎng)絡(luò)可比語料的挖掘方法,涉及網(wǎng)絡(luò)可比語料的挖掘方法,包括:利用網(wǎng)絡(luò)爬蟲獲取源語言網(wǎng)頁,經(jīng)預(yù)處理后形成源語言文檔;分析源語言文檔的跨語言主題的概率,產(chǎn)生對(duì)應(yīng)的目標(biāo)語言查詢?cè)~;將目標(biāo)語言查詢?cè)~提交搜索引擎,選取前N的文檔構(gòu)成目標(biāo)語言候選相似文檔集;計(jì)算源語言文檔和目標(biāo)語言候選相似文檔的相似度,篩選出相似度較高的文檔構(gòu)建可比語料庫。本發(fā)明避免詞匯翻譯產(chǎn)生歧義或消耗大量時(shí)間;源語言文檔源自于網(wǎng)絡(luò)爬蟲獲取的特定網(wǎng)站內(nèi)容,目標(biāo)語言文檔來自于整個(gè)互聯(lián)網(wǎng),有效提高對(duì)源語言文檔的利用率;源語言和目標(biāo)語言相似文檔匹配通過主題分布的相似性實(shí)現(xiàn),提高了語料庫建設(shè)的準(zhǔn)確度。其能夠?qū)崿F(xiàn)可對(duì)比語料庫的構(gòu)建,但不能對(duì)語料按語義分類,無法完成分類語料庫的構(gòu)建任務(wù)。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是:目前利用互聯(lián)網(wǎng)構(gòu)建分類語料庫僅依賴節(jié)點(diǎn)拓?fù)浣Y(jié)構(gòu)忽視網(wǎng)頁排版而準(zhǔn)確性差的技術(shù)問題。提出了一種依據(jù)網(wǎng)頁排版和節(jié)點(diǎn)特征結(jié)合提取網(wǎng)頁內(nèi)容標(biāo)簽的準(zhǔn)確性更高的構(gòu)建分類語料庫的方法及系統(tǒng)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州數(shù)灣信息科技有限公司;閔勇,未經(jīng)杭州數(shù)灣信息科技有限公司;閔勇許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811032694.1/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 基于網(wǎng)絡(luò)電視的互聯(lián)網(wǎng)業(yè)務(wù)處理方法和系統(tǒng)
- 互聯(lián)網(wǎng)業(yè)務(wù)接入網(wǎng)關(guān)的實(shí)現(xiàn)方法和系統(tǒng)
- 一種互聯(lián)網(wǎng)電視終端安全訪問互聯(lián)網(wǎng)的方法
- 一種互聯(lián)網(wǎng)應(yīng)用交互方法、裝置及系統(tǒng)
- 一種使用互聯(lián)網(wǎng)移動(dòng)攝像終端進(jìn)行異地圖像拍攝的系統(tǒng)
- 一種網(wǎng)絡(luò)電視終端安全訪問互聯(lián)網(wǎng)的方法
- 利用區(qū)塊鏈保護(hù)用于互聯(lián)網(wǎng)資源分配的事務(wù)
- 互聯(lián)網(wǎng)廣告裝置及方法
- 中央管理服務(wù)器的互聯(lián)網(wǎng)連接方法及系統(tǒng)
- 互聯(lián)網(wǎng)節(jié)點(diǎn)中信任傳播方法、系統(tǒng)及相關(guān)產(chǎn)品
- 構(gòu)建墊、實(shí)體圖像構(gòu)建物和構(gòu)建構(gòu)建物支撐件的方法
- 支持松耦合的軟件構(gòu)建方法、系統(tǒng)及該系統(tǒng)的實(shí)現(xiàn)方法
- 版本的構(gòu)建系統(tǒng)及方法
- 工程構(gòu)建系統(tǒng)及其構(gòu)建方法
- 實(shí)例構(gòu)建方法、裝置及軟件系統(tǒng)
- 軟件構(gòu)建方法、軟件構(gòu)建裝置和軟件構(gòu)建系統(tǒng)
- 天花板地圖構(gòu)建方法、構(gòu)建裝置以及構(gòu)建程序
- 一種項(xiàng)目構(gòu)建方法、持續(xù)集成系統(tǒng)及終端設(shè)備
- 并行構(gòu)建的方法、裝置及設(shè)備
- 構(gòu)建肺癌預(yù)測(cè)模型構(gòu)建方法





