[發(fā)明專利]文本過濾方法、設(shè)備及計算機(jī)存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202011645385.9 | 申請日: | 2020-12-31 |
| 公開(公告)號: | CN112818110A | 公開(公告)日: | 2021-05-18 |
| 發(fā)明(設(shè)計)人: | 程正濤;張偉哲;束建鋼;艾建文;鐘曉雄 | 申請(專利權(quán))人: | 鵬城實驗室 |
| 主分類號: | G06F16/335 | 分類號: | G06F16/335;G06F40/216;G06F40/242;G06F40/289 |
| 代理公司: | 深圳市世紀(jì)恒程知識產(chǎn)權(quán)代理事務(wù)所 44287 | 代理人: | 張志江 |
| 地址: | 518000 廣*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本 過濾 方法 設(shè)備 計算機(jī) 存儲 介質(zhì) | ||
1.一種文本過濾方法,其特征在于,所述方法包括:
基于語言模型獲得文本流暢度;
基于自定義構(gòu)建的有效詞詞典,獲得有效詞率;
當(dāng)所述文本流暢度滿足第一預(yù)設(shè)閾值且所述有效詞率滿足第二預(yù)設(shè)閾值,則對所述文本執(zhí)行過濾操作。
2.如權(quán)利要求1所述的文本過濾方法,其特征在于,所述基于語言模型獲得文本流暢度,包括:
基于字節(jié)對編碼方法將文本令牌化,生成子詞序列;
將所述子詞序列中的子詞依次使用標(biāo)識符進(jìn)行替換,生成樣本矩陣;
基于所述樣本矩陣,利用語言模型提取流暢度特征矩陣;
根據(jù)所述流暢度特征矩陣,獲得文本的困惑度并計算獲得文本流暢度。
3.如權(quán)利要求1所述的文本過濾方法,其特征在于,所述基于自定義構(gòu)建的有效詞詞典,獲得有效詞率,包括:
利用分詞工具對文本執(zhí)行分詞操作,生成分詞結(jié)果。
基于自定義構(gòu)建的有效詞詞典,計算所述文本中有效詞數(shù)量與所述分詞結(jié)果中分詞總數(shù)量的比值;其中,有效詞為所述有效詞詞典中包含的詞。
4.如權(quán)利要求3所述的文本過濾方法,其特征在于,所述自定義構(gòu)建的有效詞詞典的構(gòu)建方法,包括:
對預(yù)設(shè)數(shù)量文本進(jìn)行預(yù)處理,生成預(yù)處理結(jié)果;
對所述預(yù)處理結(jié)果進(jìn)行分詞操作,并進(jìn)行詞頻統(tǒng)計,生成詞頻統(tǒng)計結(jié)果;
對所述詞頻統(tǒng)計結(jié)果按照從高到低的順序排序,生成詞頻排序結(jié)果;
獲得所述詞頻排序結(jié)果前預(yù)設(shè)數(shù)量個詞,生成有效詞詞典。
5.如權(quán)利要求2所述的文本過濾方法,其特征在于,所述根據(jù)所述流暢度特征矩陣,獲得所述文本的困惑度,包括:
獲得所述樣本矩陣中每個標(biāo)識符位置上為原詞的概率;其中,所述原詞為標(biāo)識符替換前的子詞;
累乘所述文本中每個標(biāo)識符位置上為原詞的概率,獲得所述文本存在的概率;
基于所述文本存在的概率,獲得所述文本的困惑度。
6.如權(quán)利要求5所述的文本過濾方法,其特征在于,所述基于所述文本存在的概率,獲得所述文本的困惑度,包括:
獲得所述文本存在的概率的幾何平均數(shù)的倒數(shù),生成所述文本的困惑度。
7.如權(quán)利要求6所述的文本過濾方法,其特征在于,所述文本的困惑度的計算公式如下:
其中,P(S)=P(w1,w2,...,wn)=P(w1)P(w2|w1)...P(wk|w1,w2,...,wk-1)且W為所述子詞。
8.如權(quán)利要求1或7所述的文本過濾方法,其特征在于,所述第二預(yù)設(shè)閾值包括語料庫中所有文本的所述有效詞率的中位數(shù);所述第一預(yù)設(shè)閾值包括語料庫中所有文本的困惑度的中位數(shù)。
9.一種計算機(jī)存儲介質(zhì),其特征在于,所述計算機(jī)存儲介質(zhì)上存儲有文本過濾方法程序,所述文本過濾方法程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1-8任一所述的方法的步驟。
10.一種文本過濾設(shè)備,其特征在于,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的文本過濾方法程序,所述處理器執(zhí)行所述文本過濾方法程序時實現(xiàn)權(quán)利要求1-8任一所述的方法的步驟。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于鵬城實驗室,未經(jīng)鵬城實驗室許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011645385.9/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:等離子清洗設(shè)備
- 下一篇:一種外墻仿真度的測量方法以及測量裝置
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計算機(jī)可讀存儲介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計算機(jī)設(shè)備和存儲介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 傳感設(shè)備、檢索設(shè)備和中繼設(shè)備
- 簽名設(shè)備、檢驗設(shè)備、驗證設(shè)備、加密設(shè)備及解密設(shè)備
- 色彩調(diào)整設(shè)備、顯示設(shè)備、打印設(shè)備、圖像處理設(shè)備
- 驅(qū)動設(shè)備、定影設(shè)備和成像設(shè)備
- 發(fā)送設(shè)備、中繼設(shè)備和接收設(shè)備
- 定點設(shè)備、接口設(shè)備和顯示設(shè)備
- 傳輸設(shè)備、DP源設(shè)備、接收設(shè)備以及DP接受設(shè)備
- 設(shè)備綁定方法、設(shè)備、終端設(shè)備以及網(wǎng)絡(luò)側(cè)設(shè)備
- 設(shè)備、主設(shè)備及從設(shè)備
- 設(shè)備向設(shè)備轉(zhuǎn)發(fā)





