[發(fā)明專利]短信文本模版的識(shí)別方法在審

申請(qǐng)?zhí)枺?/td>	201910949281.8	申請(qǐng)日：	2019-10-08
公開（公告）號(hào)：	CN110688831A	公開（公告）日：	2020-01-14
發(fā)明（設(shè)計(jì)）人：	元方;林渠策;唐小波;宋爭(zhēng)光	申請(qǐng)（專利權(quán)）人：	上海創(chuàng)藍(lán)文化傳播有限公司
主分類號(hào)：	G06F40/186	分類號(hào)：	G06F40/186;G06F16/903
代理公司：	51241 成都方圓聿聯(lián)專利代理事務(wù)所(普通合伙)	代理人：	胡文莉
地址：	201613 上***	國(guó)省代碼：	上海;31
權(quán)利要求書：	查看更多	說(shuō)明書：	查看更多
摘要：
搜索關(guān)鍵詞：	字符集短信文本文本模版命名實(shí)體網(wǎng)址信息去重刪除標(biāo)點(diǎn)符號(hào) 正則表達(dá)式模版生成文本字符固定閥匹配閥識(shí)別器相似度字符串檢測(cè) 準(zhǔn)確率取出審核應(yīng)用
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫(kù) 專利權(quán)人專利榜在售專利公布日期熱門專利

【說(shuō)明書】：

本發(fā)明涉及文本審核技術(shù)領(lǐng)域,尤其是一種短信文本模版的識(shí)別方法，包括下述步驟：S1.取出需要去重的短信文本；S2.檢測(cè)短信文本的字符集是否含有網(wǎng)址信息，若字符集中包含網(wǎng)址信息通過(guò)正則表達(dá)式識(shí)別并刪除；S3.命名實(shí)體識(shí)別器識(shí)別短信文本中剩余的字符串；S4.刪除命名實(shí)體器識(shí)別出的實(shí)體字符集；S5.檢測(cè)短信文本的字符集是否有標(biāo)點(diǎn)符號(hào)或者特殊字符。本發(fā)明不用設(shè)置匹配閥值和相似度閥值來(lái)判斷文本是否屬于同一個(gè)模版，從而不存在一個(gè)固定閥值應(yīng)用所有文本模版；本發(fā)明是對(duì)文本字符集的完整比較，先比較字符集大小與再比較文本字符的順序，所以該發(fā)明準(zhǔn)確率高；本發(fā)明適用于所有通過(guò)模版生成的文本的去重功能。

技術(shù)領(lǐng)域

本發(fā)明涉及文本審核技術(shù)領(lǐng)域,尤其是一種短信文本模版的識(shí)別方法。

背景技術(shù)

一般情況下，如果存在大量重復(fù)的文檔有諸多不便，比如新聞博文的抄襲，到處蔓延的廣告，垃圾信息的批量發(fā)送等，這些情況會(huì)給網(wǎng)絡(luò)造成負(fù)擔(dān)，也會(huì)給存儲(chǔ)帶來(lái)額外開銷。針對(duì)文本審核工作的人來(lái)說(shuō)，對(duì)同一份文本模版需要閱讀多次，進(jìn)而產(chǎn)生時(shí)間消耗與增加心理疲勞。因此消除重復(fù)文本，正式為這目的而生。

最符合人類直觀的辦法，是對(duì)文本逐一按字比較。這種方式覆蓋了非常具體的對(duì)比，所以準(zhǔn)確率也高。面對(duì)小數(shù)量文本的時(shí)候，比較次數(shù)可以接受，耗時(shí)也可控；但是針對(duì)上億級(jí)別的數(shù)量級(jí)文檔的時(shí)候，對(duì)應(yīng)的時(shí)間消耗成本是無(wú)法接受的。

現(xiàn)有文本去重的技術(shù)，核心技術(shù)是計(jì)算文本相似度。文本領(lǐng)域計(jì)算相似度的方法包括基于字符串的(string-based)、基于預(yù)料集的(corpus-based)和基于知識(shí)的(knowledg-based)。

其中基于字符串的包括下述方式：

1.LCS最長(zhǎng)公共子字符串方式:比較兩文本中不需要連續(xù)出現(xiàn)但一定是相同字符出現(xiàn)且順序一致，越長(zhǎng)則越相似。這種方法去除重復(fù)的時(shí)候，只能通過(guò)一個(gè)閥值來(lái)判斷是否為重復(fù)內(nèi)容。比如兩個(gè)100個(gè)字的文本中，如果出現(xiàn)連續(xù)99個(gè)字符相同，則認(rèn)為兩文本一樣。這個(gè)99就是閥值。該算法的缺陷有兩點(diǎn)：一個(gè)固定的閥值無(wú)法適用所有文本，可能有些文本是99，有些是80，等等；閥值之外的字符，是兩文本中不相同的字符，如果這些字符很重要，比如正好是否定詞，則導(dǎo)致兩個(gè)文本意思完全相反，這種情況如果只考慮CLS的閥值，進(jìn)行去重會(huì)出錯(cuò)。

2.Damerau-Levenshtein方式：通過(guò)對(duì)文本中字符進(jìn)行增刪改的操作，使文本1變成文本2的操作次數(shù)，這個(gè)也稱為編輯距離，該距離越小則兩文本越相似。這種方式不要求字符是連續(xù)一樣，但也需要一個(gè)閥值，當(dāng)小于該值則認(rèn)為是文本為重復(fù)進(jìn)而去除重復(fù)，也有上述閥值的缺陷問(wèn)題。

3.Jaro方式：這個(gè)引入窗口，窗口大小為設(shè)置的閥值。在閥值內(nèi)兩字符相等則匹配上兩字符，再進(jìn)行相似度計(jì)算，最后的值越大說(shuō)明兩文本越相似。這個(gè)相似值超過(guò)閥值則認(rèn)為重復(fù)進(jìn)而刪去重復(fù)。除上述的閥值缺陷外，這里引入窗口，忽略了字符的局部順序，對(duì)于有模版的文本沒(méi)辦法檢測(cè)。因?yàn)橛心０娴奈谋?，模版部分是完全一致?/p>

4.Jaro-Winkler方式：在Jaro方式的基礎(chǔ)上修改，更加突出了前綴相同的重要性。如果兩個(gè)字符串在前幾個(gè)字符都相同的情況下，它們會(huì)獲得更高的相似性，依然存在Jaro的三個(gè)缺陷。

5.Needleman-Wunsch方式：是一種基于LCS結(jié)合動(dòng)態(tài)規(guī)劃全局匹配的方式。全局意思為單字符與其余文本的所有字符進(jìn)行匹配。缺陷是耗內(nèi)存，同時(shí)也有上述閥值的缺陷問(wèn)題。

6.Smith-Waterman方式：類似與Needleman-wunsch方式，不過(guò)它搜索的是局部信息匹配，也就是只看文本中一部分。缺陷是耗內(nèi)存，同時(shí)也有上述閥值的缺陷問(wèn)題。

7.N-gram方式：把字符拼成詞，然后匹配。其中，N表示字符的數(shù)量。這里也存在上述閥值的缺陷問(wèn)題。

除此之外還有jaccard距離，heming距離，simhash等的計(jì)算方式，都存在閥值缺陷。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海創(chuàng)藍(lán)文化傳播有限公司，未經(jīng)上海創(chuàng)藍(lán)文化傳播有限公司許可，擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201910949281.8/2.html，轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。

上一篇：征信模板的轉(zhuǎn)換方法及裝置
下一篇：一種評(píng)論生成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)

同類專利

專利分類

G 物理

G06 計(jì)算；推算；計(jì)數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說(shuō)明：

1、專利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專利說(shuō)明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】