[發(fā)明專利]一種分類語料確定方法和設(shè)備有效
| 申請(qǐng)?zhí)枺?/td> | 201210056669.3 | 申請(qǐng)日: | 2012-03-06 |
| 公開(公告)號(hào): | CN103309857B | 公開(公告)日: | 2018-11-09 |
| 發(fā)明(設(shè)計(jì))人: | 賀翔;亓超;毛少林;翟俊杰 | 申請(qǐng)(專利權(quán))人: | 深圳市世紀(jì)光速信息技術(shù)有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 北京華沛德權(quán)律師事務(wù)所 11302 | 代理人: | 劉杰 |
| 地址: | 518057 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 分類 語料 確定 方法 設(shè)備 | ||
本發(fā)明公開了一種分類語料確定方法和設(shè)備,該方法包括:從數(shù)據(jù)庫中獲取預(yù)設(shè)數(shù)量的輸入樣本,組成輸入樣本集;其中,所述輸入樣本包含詞條的詞條名、分類信息以及相關(guān)詞條信息;根據(jù)預(yù)設(shè)的種子詞從所述輸入樣本集中獲取特征樣本,組成特征樣本集;根據(jù)所述特征樣本集確定分類特征詞;根據(jù)所述分類特征詞以及待選文本確定分類語料及其類別。在本發(fā)明中,提高了分類語料獲取的效率和準(zhǔn)確率。
技術(shù)領(lǐng)域
本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)應(yīng)用領(lǐng)域,尤其涉及一種分類語料確定方法和設(shè)備。
背景技術(shù)
文本自動(dòng)分類是指用計(jì)算機(jī)程序?qū)ξ谋炯?或其他數(shù)據(jù))按照一定的分類體系或標(biāo)準(zhǔn)進(jìn)行自動(dòng)分類標(biāo)記。
為了使計(jì)算機(jī)程序能對(duì)文本集進(jìn)行自動(dòng)分類標(biāo)記,需要使用大量分類語料對(duì)其進(jìn)行訓(xùn)練;其中,該分類語料是指大量具有類別標(biāo)注信息的文本集合,上述計(jì)算機(jī)程序(如分類器)通過語料學(xué)習(xí)(訓(xùn)練)標(biāo)注規(guī)則。
現(xiàn)有技術(shù)中,獲取分類語料的途徑主要包括以下兩種方式:
(1)人工標(biāo)注,即人工對(duì)大量的文本進(jìn)行分類標(biāo)注;
(2)定向抓取,即通過自動(dòng)爬蟲等方式從互聯(lián)網(wǎng)上已經(jīng)分好類的數(shù)據(jù)中抓取;如,當(dāng)需要影視類分類語料時(shí),可以在互聯(lián)網(wǎng)上的影視類網(wǎng)站數(shù)據(jù)庫中抓取。
發(fā)明人在實(shí)現(xiàn)本發(fā)明的過程中,發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下缺陷:
人工標(biāo)注的方式需要花費(fèi)大量的人力和時(shí)間,效率較低;定向抓取則無法保證分類語料的準(zhǔn)確率,即無法保證從影視類網(wǎng)站數(shù)據(jù)庫中獲取到的文本集均為影視類的語料。
發(fā)明內(nèi)容
本發(fā)明提供一種分類語料的確認(rèn)方法和設(shè)備,以提高分類語料獲取的效率和準(zhǔn)確率。
為了達(dá)到上述目的,本發(fā)明實(shí)施例提供一種分類語料確定方法,包括:
從數(shù)據(jù)庫中獲取預(yù)設(shè)數(shù)量的輸入樣本,組成輸入樣本集;其中,所述輸入樣本包含詞條的詞條名、分類信息以及相關(guān)詞條信息;
根據(jù)預(yù)設(shè)的種子詞從所述輸入樣本集中獲取特征樣本,組成特征樣本集;
根據(jù)所述特征樣本集確定分類特征詞;
根據(jù)所述分類特征詞以及待選文本確定分類語料及其類別。
本發(fā)明實(shí)施例還提供一種分類語料確定設(shè)備,包括:
第一獲取模塊,用于從數(shù)據(jù)庫中獲取預(yù)設(shè)數(shù)量的輸入樣本,組成輸入樣本集;其中,所述輸入樣本包含詞條的詞條名、分類信息以及相關(guān)詞條信息;
第二獲取模塊,用于根據(jù)預(yù)設(shè)的種子詞從所述輸入樣本集中獲取特征樣本,組成特征樣本集;
第一確定模塊,用于根據(jù)所述特征樣本集確定分類特征詞;
第二確定模塊,用于根據(jù)所述分類特征詞以及待選文本確定分類語料及其類別。
與現(xiàn)有技術(shù)相比,本發(fā)明實(shí)施例具有以下優(yōu)點(diǎn):
通過預(yù)先選取一定數(shù)量的已知類別的種子詞,并從數(shù)據(jù)庫中獲取一定數(shù)量的輸入樣本組成輸入樣本集;根據(jù)預(yù)設(shè)的種子詞從輸入樣本集中獲取特征樣本組成特征樣本集,并根據(jù)獲取到的特征樣本集確定分類特征詞;根據(jù)獲取到的分類特征詞以及待選文本確定分類語料及其類別,提高了分類語料獲取的效率和準(zhǔn)確率。
附圖說明
圖1為本發(fā)明實(shí)施例提供的一種分類語料確定方法的流程示意圖;
圖2為本發(fā)明實(shí)施例提供的技術(shù)方案中獲取特征樣本的流程示意圖;
圖3為本發(fā)明實(shí)施例提供的一種具體應(yīng)用場(chǎng)景下的分類語料確定方法的流程示意圖;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳市世紀(jì)光速信息技術(shù)有限公司,未經(jīng)深圳市世紀(jì)光速信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210056669.3/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種語料提取器及提取語料的方法
- 軍事信息語料庫構(gòu)建方法及系統(tǒng)
- 待標(biāo)注語料的分配方法、裝置、可讀存儲(chǔ)介質(zhì)及電子設(shè)備
- 語料泛化方法、裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)
- 語料數(shù)據(jù)的處理方法、裝置、計(jì)算機(jī)可讀介質(zhì)及電子設(shè)備
- 一種擴(kuò)展語料挖掘方法、裝置、服務(wù)器及存儲(chǔ)介質(zhì)
- 語料生成方法、語料生成裝置、和存儲(chǔ)介質(zhì)
- 短語語料獲取方法及短語語料獲取裝置
- 一種語料分類方法、裝置及服務(wù)器
- 一種輸入方法、裝置和電子設(shè)備
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





