[發(fā)明專利]短信文本模版的識(shí)別方法在審
| 申請(qǐng)?zhí)枺?/td> | 201910949281.8 | 申請(qǐng)日: | 2019-10-08 |
| 公開(公告)號(hào): | CN110688831A | 公開(公告)日: | 2020-01-14 |
| 發(fā)明(設(shè)計(jì))人: | 元方;林渠策;唐小波;宋爭(zhēng)光 | 申請(qǐng)(專利權(quán))人: | 上海創(chuàng)藍(lán)文化傳播有限公司 |
| 主分類號(hào): | G06F40/186 | 分類號(hào): | G06F40/186;G06F16/903 |
| 代理公司: | 51241 成都方圓聿聯(lián)專利代理事務(wù)所(普通合伙) | 代理人: | 胡文莉 |
| 地址: | 201613 上*** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 字符集 短信文本 文本 模版 命名實(shí)體 網(wǎng)址信息 去重 刪除 標(biāo)點(diǎn)符號(hào) 正則表達(dá)式 模版生成 文本字符 固定閥 匹配閥 識(shí)別器 相似度 字符串 檢測(cè) 準(zhǔn)確率 取出 審核 應(yīng)用 | ||
本發(fā)明涉及文本審核技術(shù)領(lǐng)域,尤其是一種短信文本模版的識(shí)別方法,包括下述步驟:S1.取出需要去重的短信文本;S2.檢測(cè)短信文本的字符集是否含有網(wǎng)址信息,若字符集中包含網(wǎng)址信息通過(guò)正則表達(dá)式識(shí)別并刪除;S3.命名實(shí)體識(shí)別器識(shí)別短信文本中剩余的字符串;S4.刪除命名實(shí)體器識(shí)別出的實(shí)體字符集;S5.檢測(cè)短信文本的字符集是否有標(biāo)點(diǎn)符號(hào)或者特殊字符。本發(fā)明不用設(shè)置匹配閥值和相似度閥值來(lái)判斷文本是否屬于同一個(gè)模版,從而不存在一個(gè)固定閥值應(yīng)用所有文本模版;本發(fā)明是對(duì)文本字符集的完整比較,先比較字符集大小與再比較文本字符的順序,所以該發(fā)明準(zhǔn)確率高;本發(fā)明適用于所有通過(guò)模版生成的文本的去重功能。
技術(shù)領(lǐng)域
本發(fā)明涉及文本審核技術(shù)領(lǐng)域,尤其是一種短信文本模版的識(shí)別方法。
背景技術(shù)
一般情況下,如果存在大量重復(fù)的文檔有諸多不便,比如新聞博文的抄襲,到處蔓延的廣告,垃圾信息的批量發(fā)送等,這些情況會(huì)給網(wǎng)絡(luò)造成負(fù)擔(dān),也會(huì)給存儲(chǔ)帶來(lái)額外開銷。針對(duì)文本審核工作的人來(lái)說(shuō),對(duì)同一份文本模版需要閱讀多次,進(jìn)而產(chǎn)生時(shí)間消耗與增加心理疲勞。因此消除重復(fù)文本,正式為這目的而生。
最符合人類直觀的辦法,是對(duì)文本逐一按字比較。這種方式覆蓋了非常具體的對(duì)比,所以準(zhǔn)確率也高。面對(duì)小數(shù)量文本的時(shí)候,比較次數(shù)可以接受,耗時(shí)也可控;但是針對(duì)上億級(jí)別的數(shù)量級(jí)文檔的時(shí)候,對(duì)應(yīng)的時(shí)間消耗成本是無(wú)法接受的。
現(xiàn)有文本去重的技術(shù),核心技術(shù)是計(jì)算文本相似度。文本領(lǐng)域計(jì)算相似度的方法包括基于字符串的(string-based)、基于預(yù)料集的(corpus-based)和基于知識(shí)的(knowledg-based)。
其中基于字符串的包括下述方式:
1.LCS最長(zhǎng)公共子字符串方式:比較兩文本中不需要連續(xù)出現(xiàn)但一定是相同字符出現(xiàn)且順序一致,越長(zhǎng)則越相似。這種方法去除重復(fù)的時(shí)候,只能通過(guò)一個(gè)閥值來(lái)判斷是否為重復(fù)內(nèi)容。比如兩個(gè)100個(gè)字的文本中,如果出現(xiàn)連續(xù)99個(gè)字符相同,則認(rèn)為兩文本一樣。這個(gè)99就是閥值。該算法的缺陷有兩點(diǎn):一個(gè)固定的閥值無(wú)法適用所有文本,可能有些文本是99,有些是80,等等;閥值之外的字符,是兩文本中不相同的字符,如果這些字符很重要,比如正好是否定詞,則導(dǎo)致兩個(gè)文本意思完全相反,這種情況如果只考慮CLS的閥值,進(jìn)行去重會(huì)出錯(cuò)。
2.Damerau-Levenshtein方式:通過(guò)對(duì)文本中字符進(jìn)行增刪改的操作,使文本1變成文本2的操作次數(shù),這個(gè)也稱為編輯距離,該距離越小則兩文本越相似。這種方式不要求字符是連續(xù)一樣,但也需要一個(gè)閥值,當(dāng)小于該值則認(rèn)為是文本為重復(fù)進(jìn)而去除重復(fù),也有上述閥值的缺陷問(wèn)題。
3.Jaro方式:這個(gè)引入窗口,窗口大小為設(shè)置的閥值。在閥值內(nèi)兩字符相等則匹配上兩字符,再進(jìn)行相似度計(jì)算,最后的值越大說(shuō)明兩文本越相似。這個(gè)相似值超過(guò)閥值則認(rèn)為重復(fù)進(jìn)而刪去重復(fù)。除上述的閥值缺陷外,這里引入窗口,忽略了字符的局部順序,對(duì)于有模版的文本沒(méi)辦法檢測(cè)。因?yàn)橛心0娴奈谋?,模版部分是完全一致?/p>
4.Jaro-Winkler方式:在Jaro方式的基礎(chǔ)上修改,更加突出了前綴相同的重要性。如果兩個(gè)字符串在前幾個(gè)字符都相同的情況下,它們會(huì)獲得更高的相似性,依然存在Jaro的三個(gè)缺陷。
5.Needleman-Wunsch方式:是一種基于LCS結(jié)合動(dòng)態(tài)規(guī)劃全局匹配的方式。全局意思為單字符與其余文本的所有字符進(jìn)行匹配。缺陷是耗內(nèi)存,同時(shí)也有上述閥值的缺陷問(wèn)題。
6.Smith-Waterman方式:類似與Needleman-wunsch方式,不過(guò)它搜索的是局部信息匹配,也就是只看文本中一部分。缺陷是耗內(nèi)存,同時(shí)也有上述閥值的缺陷問(wèn)題。
7.N-gram方式:把字符拼成詞,然后匹配。其中,N表示字符的數(shù)量。這里也存在上述閥值的缺陷問(wèn)題。
除此之外還有jaccard距離,heming距離,simhash等的計(jì)算方式,都存在閥值缺陷。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海創(chuàng)藍(lán)文化傳播有限公司,未經(jīng)上海創(chuàng)藍(lán)文化傳播有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910949281.8/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





