[發(fā)明專(zhuān)利]一種文本標(biāo)識(shí)的方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 201811377862.0 | 申請(qǐng)日: | 2018-11-19 |
| 公開(kāi)(公告)號(hào): | CN109471920A | 公開(kāi)(公告)日: | 2019-03-15 |
| 發(fā)明(設(shè)計(jì))人: | 萬(wàn)月亮;火一莽;任眾 | 申請(qǐng)(專(zhuān)利權(quán))人: | 北京銳安科技有限公司 |
| 主分類(lèi)號(hào): | G06F16/33 | 分類(lèi)號(hào): | G06F16/33 |
| 代理公司: | 北京品源專(zhuān)利代理有限公司 11332 | 代理人: | 孟金喆 |
| 地址: | 100044 北京市海淀區(qū)西小口*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 標(biāo)識(shí)文本 垃圾文本 判別模型 存儲(chǔ)介質(zhì) 電子設(shè)備 過(guò)濾規(guī)則 文本標(biāo)識(shí) 預(yù)設(shè) 海量文本數(shù)據(jù) 數(shù)據(jù)清洗 核查 垃圾 更新 | ||
本發(fā)明實(shí)施例公開(kāi)了一種文本標(biāo)識(shí)的方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),該方法包括:基于預(yù)設(shè)的判別模型確定待標(biāo)識(shí)文本的初始標(biāo)識(shí);基于所述初始標(biāo)識(shí)和預(yù)設(shè)的過(guò)濾規(guī)則確定所述待標(biāo)識(shí)文本的最終標(biāo)識(shí);其中,所述標(biāo)識(shí)包括:垃圾文本或非垃圾文本。在判別模型確定待標(biāo)識(shí)文本標(biāo)識(shí)的基礎(chǔ)上,進(jìn)一步利用過(guò)濾規(guī)則進(jìn)行再次的核查并確認(rèn)是為垃圾文本還是非垃圾文本,避免判別模型由于沒(méi)有及時(shí)更新造成錯(cuò)誤判別的問(wèn)題,實(shí)現(xiàn)更準(zhǔn)確的對(duì)待標(biāo)識(shí)文本的垃圾判斷標(biāo)識(shí),可以高效的對(duì)海量文本數(shù)據(jù)實(shí)現(xiàn)數(shù)據(jù)清洗。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)挖掘技術(shù)領(lǐng)域,尤其涉及一種文本標(biāo)識(shí)的方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù)
垃圾文本標(biāo)識(shí)的目的是為了將用戶(hù)不關(guān)注的文章進(jìn)行標(biāo)識(shí),在進(jìn)行文章檢索時(shí),過(guò)濾與領(lǐng)域關(guān)注無(wú)關(guān)文本,從而降低用戶(hù)的無(wú)效信息瀏覽時(shí)長(zhǎng),提升用戶(hù)的瀏覽效率,該技術(shù)廣泛應(yīng)用于海量文本數(shù)據(jù)的數(shù)據(jù)清洗技術(shù)中。
對(duì)于垃圾文本標(biāo)識(shí),現(xiàn)有技術(shù)常采用以下幾種方式來(lái)進(jìn)行處理:
1.采用非領(lǐng)域關(guān)注詞庫(kù)的方法,對(duì)文章內(nèi)容進(jìn)行關(guān)鍵詞匹配。通過(guò)預(yù)設(shè)的“垃圾”關(guān)鍵詞,匹配文章是否存在垃圾詞,從而判斷當(dāng)前文本是否屬于垃圾文本。顯然,該方法嚴(yán)重依賴(lài)于垃圾詞庫(kù),且當(dāng)垃圾詞出現(xiàn)于文本中時(shí),即被判斷為垃圾文本,而在實(shí)際中人工在對(duì)垃圾文本判斷時(shí),遠(yuǎn)復(fù)雜于當(dāng)前判斷邏輯,具有很高的誤判率,導(dǎo)致較多的有價(jià)值文本被誤判為垃圾文本而被遺漏。
2.采用向量空間模型的方法,對(duì)垃圾文本進(jìn)行標(biāo)識(shí)。通過(guò)人工標(biāo)注垃圾文本,建立行業(yè)相關(guān)的垃圾文本語(yǔ)料庫(kù),基于機(jī)器學(xué)習(xí)算法,建立垃圾文本向量空間模型,基于該模型,判斷文本是否為垃圾文本。但是由于垃圾文本的形式不斷增加,若要保持向量模型的有效性,需要持續(xù)的對(duì)模型進(jìn)行更新迭代,導(dǎo)致較高的人工成本用于更新行業(yè)相關(guān)的垃圾文本語(yǔ)料庫(kù)。
發(fā)明內(nèi)容
本發(fā)明提供一種文本標(biāo)識(shí)的方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),提升垃圾文本標(biāo)識(shí)的準(zhǔn)確性,同時(shí),降低了相關(guān)判別模型的維護(hù)成本。
第一方面,本發(fā)明實(shí)施例提供了一種文本標(biāo)識(shí)的方法,包括:
基于預(yù)設(shè)的判別模型確定待標(biāo)識(shí)文本的初始標(biāo)識(shí);
基于所述初始標(biāo)識(shí)和預(yù)設(shè)的過(guò)濾規(guī)則確定所述待標(biāo)識(shí)文本的最終標(biāo)識(shí);
其中,所述標(biāo)識(shí)包括:垃圾文本或非垃圾文本。
第二方面,本發(fā)明實(shí)施例還提供了一種文本標(biāo)識(shí)的裝置,包括:
初始標(biāo)識(shí)模塊,用于基于預(yù)設(shè)的判別模型確定待標(biāo)識(shí)文本的初始標(biāo)識(shí);
最終標(biāo)識(shí)模塊,用于基于所述初始標(biāo)識(shí)和預(yù)設(shè)的過(guò)濾規(guī)則確定所述待標(biāo)識(shí)文本的最終標(biāo)識(shí);
其中,所述標(biāo)識(shí)包括:垃圾文本或非垃圾文本。
第三方面,本發(fā)明實(shí)施例還提供了一種電子設(shè)備,所述電子設(shè)備包括:
一個(gè)或多個(gè)處理器;
存儲(chǔ)裝置,用于存儲(chǔ)一個(gè)或多個(gè)程序,
當(dāng)所述一個(gè)或多個(gè)程序被所述一個(gè)或多個(gè)處理器執(zhí)行,使得所述一個(gè)或多個(gè)處理器實(shí)現(xiàn)如本發(fā)明任意實(shí)施例所述的文本標(biāo)識(shí)的方法。
第四方面,本發(fā)明實(shí)施例還提供了一種包含計(jì)算機(jī)可執(zhí)行指令的存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可執(zhí)行指令在由計(jì)算機(jī)處理器執(zhí)行時(shí)用于執(zhí)行如本發(fā)明任意實(shí)施例所述的文本標(biāo)識(shí)的方法。
本發(fā)明實(shí)施例的技術(shù)方案,通過(guò)基于預(yù)設(shè)的判別模型確定待標(biāo)識(shí)文本的初始標(biāo)識(shí);基于所述初始標(biāo)識(shí)和預(yù)設(shè)的過(guò)濾規(guī)則確定所述待標(biāo)識(shí)文本的最終標(biāo)識(shí)其中,所述標(biāo)識(shí)包括:垃圾文本或非垃圾文本。通過(guò)該實(shí)施例的方案,在模型判別的基礎(chǔ)上,進(jìn)一步利用過(guò)濾規(guī)則進(jìn)行識(shí)別,實(shí)現(xiàn)無(wú)需頻繁維護(hù)垃圾文本標(biāo)識(shí)模型,同時(shí)降低標(biāo)識(shí)誤判率的目的。
附圖說(shuō)明
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于北京銳安科技有限公司,未經(jīng)北京銳安科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811377862.0/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 上一篇:零代詞消解方法及裝置
- 下一篇:一種文本查重方法、裝置及設(shè)備
- 利用移動(dòng)終端的文本消息傳遞
- 信息處理方法和裝置、信息顯示方法和裝置
- 文本的標(biāo)識(shí)方法及裝置
- 一種文本框的顯示方法及裝置
- 文本的分類(lèi)方法及裝置
- 一種文本分類(lèi)方法、裝置、介質(zhì)及設(shè)備
- 一種文本標(biāo)識(shí)的方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種文本區(qū)域劃分方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本對(duì)比方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 圖像文本識(shí)別方法、裝置、計(jì)算機(jī)設(shè)備及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 一種識(shí)別垃圾文本的方法和系統(tǒng)
- 短文本的垃圾識(shí)別方法及系統(tǒng)
- 一種用于確定頁(yè)面中的垃圾文本信息的方法與設(shè)備
- 一種文本反垃圾的方法
- 基于雙向迭代和自動(dòng)構(gòu)建更新語(yǔ)料庫(kù)的垃圾評(píng)論過(guò)濾方法
- 垃圾文本識(shí)別方法、裝置及系統(tǒng)
- 垃圾文本庫(kù)的建立方法、過(guò)濾方法及系統(tǒng)
- 一種垃圾文本識(shí)別方法和裝置
- 文本過(guò)濾方法、系統(tǒng)、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 垃圾文本檢測(cè)方法、可讀存儲(chǔ)介質(zhì)和計(jì)算機(jī)設(shè)備
- 一種用于確定對(duì)象類(lèi)型的方法與設(shè)備
- 基于生成對(duì)抗網(wǎng)絡(luò)的智能電網(wǎng)深度學(xué)習(xí)訓(xùn)練樣本生成方法
- 語(yǔ)音處理模型的訓(xùn)練方法、語(yǔ)音識(shí)別方法、系統(tǒng)及裝置
- 基于彈球損失的FisherSVM聲納信號(hào)判別方法
- 基于自適應(yīng)調(diào)整的圖像超分辨率重建方法
- 一種活體人臉的判別方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 通過(guò)判別式模型檢測(cè)目標(biāo)對(duì)象的方法和系統(tǒng)
- 訓(xùn)練文本判別模型的方法及系統(tǒng)
- 用于限制性用藥違規(guī)的檢測(cè)方法和檢測(cè)系統(tǒng)
- 一種環(huán)境對(duì)抗的魯棒語(yǔ)音鑒別方法
- 用于接合與分離存儲(chǔ)介質(zhì)的裝置
- 存儲(chǔ)介質(zhì)陣列控制器、控制方法、設(shè)備、和存儲(chǔ)介質(zhì)驅(qū)動(dòng)器
- 存儲(chǔ)介質(zhì)處理方法、系統(tǒng)及數(shù)據(jù)讀寫(xiě)操作方法、系統(tǒng)
- 存儲(chǔ)裝置、存儲(chǔ)介質(zhì)以及存儲(chǔ)介質(zhì)的制造方法
- 數(shù)據(jù)存儲(chǔ)
- 存儲(chǔ)介質(zhì)之間的數(shù)據(jù)遷移
- 一種基于存儲(chǔ)系統(tǒng)的控制方法及裝置
- 自助設(shè)備及自助設(shè)備的介質(zhì)存儲(chǔ)裝置
- 融合存儲(chǔ)系統(tǒng)中的數(shù)據(jù)遷移方法和裝置
- 一種數(shù)據(jù)存儲(chǔ)方法、裝置及電子設(shè)備





