[發(fā)明專利]一種基于文本內(nèi)容的敏感詞過濾方法有效
| 申請?zhí)枺?/td> | 201710651487.3 | 申請日: | 2017-08-02 |
| 公開(公告)號(hào): | CN107463666B | 公開(公告)日: | 2019-12-06 |
| 發(fā)明(設(shè)計(jì))人: | 李英祥;吳珊;胡志恒;李倩宇 | 申請(專利權(quán))人: | 成都德爾塔信息科技有限公司 |
| 主分類號(hào): | G06F16/335 | 分類號(hào): | G06F16/335;G06F16/31;G06F16/9535;G06F17/27 |
| 代理公司: | 51200 成都信博專利代理有限責(zé)任公司 | 代理人: | 王沙沙<國際申請>=<國際公布>=<進(jìn)入 |
| 地址: | 610225 四川省成都市雙流縣*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 文本 內(nèi)容 敏感 過濾 方法 | ||
本發(fā)明公開了一種基于文本內(nèi)容的敏感詞過濾方法,包括以下步驟:構(gòu)建中文敏感詞庫,將中文敏感詞庫中的中文詞向中拼混合詞進(jìn)行擴(kuò)充,形成中拼混合敏感詞庫;通過敏感詞查找樹結(jié)構(gòu)建立確定有限狀態(tài)自動(dòng)機(jī)中各個(gè)敏感詞的轉(zhuǎn)換函數(shù),將中拼混合敏感詞庫中的敏感詞構(gòu)建成敏感詞樹;根據(jù)敏感詞樹的結(jié)構(gòu)在文本中對敏感詞進(jìn)行檢索,對檢索到的敏感詞使用指定符號(hào)進(jìn)行替換,完成敏感詞過濾;本發(fā)明查全率高、在實(shí)際應(yīng)用中易于實(shí)現(xiàn)。
技術(shù)領(lǐng)域
本發(fā)明涉及敏感詞過濾領(lǐng)域,具體涉及一種基于文本內(nèi)容的敏感詞過濾方法。
背景技術(shù)
互聯(lián)網(wǎng)給人們一個(gè)自由、便捷和開放的空間,任何人都可以在虛擬的世界里暢所欲言;因此海量的網(wǎng)絡(luò)信息出現(xiàn)在人們;人們在享受快捷、方便的同時(shí),大量的違法、暴力等敏感信息也接踵而至,給社會(huì)造成了嚴(yán)重的負(fù)面影響;敏感信息會(huì)通過各種載體進(jìn)行傳播,主要有圖片、聲音、視頻和文字等;如今,敏感信息充斥著網(wǎng)絡(luò)中的每個(gè)角落,從制度上進(jìn)行瓜里不能達(dá)到很好的效果,從技術(shù)上及時(shí)發(fā)現(xiàn)、追蹤和處理敏感信息對于降低互聯(lián)網(wǎng)中的敏感信息對社會(huì)的危害起到舉足輕重的作用;因此,在信息處理領(lǐng)域中,敏感信息過濾成為其中一項(xiàng)緊迫而重要的技術(shù)問題;由于英文單詞之間有空格來進(jìn)行分隔,并且英文中只包含26個(gè)字母,但中文字詞間除了必須的標(biāo)點(diǎn)符號(hào)之外,沒有明顯的分隔符;并且漢字的數(shù)量龐大,因此許多英文敏感信息過濾算法對于中文敏感信息的過濾并不合適;如果想要達(dá)到對敏感信息更好的過濾,就必須研究一種能在信息源、傳播途徑中、接收端都實(shí)用的中文敏感信息過濾算法。
早期的文本過濾技術(shù)主要是單純的關(guān)鍵字匹配以及詞頻統(tǒng)計(jì)方法,這種過濾方法比較簡單;在單模式匹配算法中,比較經(jīng)典的有:BF算法、KMP算法、BM算法等;在多模式匹配算法中,比較經(jīng)典的有:AC算法、CW算法、WM算法等,這些算法能在一定程度上成功的匹配關(guān)鍵字,但存在著時(shí)間復(fù)雜度高、實(shí)際應(yīng)用中匹配速度慢、靈活性差、實(shí)際應(yīng)用困難等問題;后來一些學(xué)者使用文本分類技術(shù)來對文本敏感信息進(jìn)行過濾;首先對文本特征進(jìn)行提取,根據(jù)其特征將文本劃分到若干類別中,再根據(jù)屬于哪個(gè)類別來判斷文本的敏感性,然后將敏感文本過濾掉;文本分類技術(shù)中也出現(xiàn)了大量的分類算法,如AP聚類算法、基于向量空間模型的K-means算法及基于后綴樹(STC)算法等;這些算法對于識(shí)別敏感文本有著很大的貢獻(xiàn);但是對于文本中的敏感詞卻無能為力;還有比較常見的過濾方法就是對文本先進(jìn)行去停用詞、音譯詞等;而在中文文本中又不存在明顯的詞邊界,利用分詞的方法難以識(shí)別出詞典中未包含的敏感詞,并且更新和維護(hù)人工詞典也耗時(shí)耗力;因此分詞技術(shù)本身就存在很大的障礙,在一些短文本中,例如微博、即時(shí)聊天信息、朋友圈等網(wǎng)絡(luò)平臺(tái),人們常常會(huì)使用到語氣詞、助詞等停用詞和一些帶有感情色彩的標(biāo)點(diǎn)符號(hào),如果對這樣的文本進(jìn)行去停用詞、去符號(hào)等預(yù)處理操作,用戶體驗(yàn)明顯要差很多,實(shí)用性并不廣泛。
發(fā)明內(nèi)容
本發(fā)明提供一種可過濾人工干擾的敏感詞并且在實(shí)際應(yīng)用中易于實(shí)現(xiàn)的基于文本內(nèi)容的敏感詞過濾方法。
本發(fā)明采用的技術(shù)方案是:一種基于文本內(nèi)容的敏感詞過濾方法,包括以下步驟:
構(gòu)建中文敏感詞庫,將中文敏感詞庫中的中文詞向中拼混合詞進(jìn)行擴(kuò)充,形成中拼混合敏感詞庫;
通過單詞查找樹結(jié)構(gòu)建立確定有限狀態(tài)自動(dòng)機(jī)中各個(gè)敏感詞的轉(zhuǎn)換函數(shù),將中拼混合敏感詞庫中的敏感詞構(gòu)建成敏感詞樹;
根據(jù)敏感詞樹的結(jié)構(gòu)在文本中對敏感詞進(jìn)行檢索,對檢索到的敏感詞使用指定符號(hào)進(jìn)行替換,完成敏感詞過濾。
進(jìn)一步的,所述單詞查找樹結(jié)構(gòu)如下:
根節(jié)點(diǎn)不包含任何字符;除根節(jié)點(diǎn)以外的每個(gè)節(jié)點(diǎn)記錄不定量的字符數(shù)以及結(jié)束標(biāo)志位符號(hào),子節(jié)點(diǎn)采用哈希機(jī)制;從跟節(jié)點(diǎn)到某一個(gè)節(jié)點(diǎn)路徑上的所有字符串連接起來構(gòu)成新的字符串;每個(gè)詞的公共前綴共享一個(gè)分支。
進(jìn)一步的,所述構(gòu)建敏感詞樹包括以下步驟:
S1:以敏感詞文本中的一行為一個(gè)元素添加到敏感詞集合中;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于成都德爾塔信息科技有限公司,未經(jīng)成都德爾塔信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710651487.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 內(nèi)容再現(xiàn)系統(tǒng)、內(nèi)容提供方法、內(nèi)容再現(xiàn)裝置、內(nèi)容提供裝置、內(nèi)容再現(xiàn)程序和內(nèi)容提供程序
- 內(nèi)容記錄系統(tǒng)、內(nèi)容記錄方法、內(nèi)容記錄設(shè)備和內(nèi)容接收設(shè)備
- 內(nèi)容服務(wù)系統(tǒng)、內(nèi)容服務(wù)器、內(nèi)容終端及內(nèi)容服務(wù)方法
- 內(nèi)容分發(fā)系統(tǒng)、內(nèi)容分發(fā)裝置、內(nèi)容再生終端及內(nèi)容分發(fā)方法
- 內(nèi)容發(fā)布、內(nèi)容獲取的方法、內(nèi)容發(fā)布裝置及內(nèi)容傳播系統(tǒng)
- 內(nèi)容提供裝置、內(nèi)容提供方法、內(nèi)容再現(xiàn)裝置、內(nèi)容再現(xiàn)方法
- 內(nèi)容傳輸設(shè)備、內(nèi)容傳輸方法、內(nèi)容再現(xiàn)設(shè)備、內(nèi)容再現(xiàn)方法、程序及內(nèi)容分發(fā)系統(tǒng)
- 內(nèi)容發(fā)送設(shè)備、內(nèi)容發(fā)送方法、內(nèi)容再現(xiàn)設(shè)備、內(nèi)容再現(xiàn)方法、程序及內(nèi)容分發(fā)系統(tǒng)
- 內(nèi)容再現(xiàn)裝置、內(nèi)容再現(xiàn)方法、內(nèi)容再現(xiàn)程序及內(nèi)容提供系統(tǒng)
- 內(nèi)容記錄裝置、內(nèi)容編輯裝置、內(nèi)容再生裝置、內(nèi)容記錄方法、內(nèi)容編輯方法、以及內(nèi)容再生方法
- 可測量片外橫向偏導(dǎo)的橫向偏差三敏感柵叉指金屬應(yīng)變片
- 可測量偏置位置軸向偏導(dǎo)的軸向偏差三敏感柵叉指金屬應(yīng)變片
- 可測量偏置敏感柵中心軸向偏導(dǎo)的軸向偏差三敏感柵叉指金屬應(yīng)變片
- 可測量偏置敏感柵外側(cè)軸向偏導(dǎo)的軸向偏差三敏感柵叉指金屬應(yīng)變片
- 可測量偏置敏感柵中心橫向偏導(dǎo)的橫向偏差三敏感柵叉指金屬應(yīng)變片
- 三軸硅微加速度計(jì)
- 三軸硅微加速度計(jì)
- 一種用于大噸位傳感器的自定位應(yīng)變計(jì)
- 用于簡化懸臂梁傳感器的全橋箔式電阻應(yīng)變計(jì)
- 一種敏感文件管理方法





