[發明專利]文本過濾方法、設備及計算機存儲介質在審
| 申請號: | 202011645385.9 | 申請日: | 2020-12-31 |
| 公開(公告)號: | CN112818110A | 公開(公告)日: | 2021-05-18 |
| 發明(設計)人: | 程正濤;張偉哲;束建鋼;艾建文;鐘曉雄 | 申請(專利權)人: | 鵬城實驗室 |
| 主分類號: | G06F16/335 | 分類號: | G06F16/335;G06F40/216;G06F40/242;G06F40/289 |
| 代理公司: | 深圳市世紀恒程知識產權代理事務所 44287 | 代理人: | 張志江 |
| 地址: | 518000 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 過濾 方法 設備 計算機 存儲 介質 | ||
本發明公開了一種文本過濾方法、設備及計算機存儲介質,該方法包括以下步驟:基于語言模型獲得文本流暢度;基于自定義構建的有效詞詞典,獲得有效詞率;當所述文本流暢度滿足第一預設閾值且所述有效詞率滿足第二預設閾值,則對所述文本執行過濾操作;本發明解決人工篩選過濾文本耗時耗力、效率低、成本高且質量低的問題,提高語料庫中語義級別,以及字符級別的文本篩選質量,從而提升訓練模型和服務質量,降低計算開銷。
技術領域
本發明涉及自然語言處理領域,尤其涉及一種文本過濾方法、設備及計算機存儲介質。
背景技術
隨著人工智能技術的飛速發展,人工智能安全的重要性愈發凸顯,而在人工智能技術中,自然語言處理技術得到了極為廣泛的應用。自然語言處理技術采用文本作為處理目標,為生產生活提供助力。而在大數據時代背景下,多源大數據非可信的環境下,低質量的文本數據給自然語言處理模型的訓練和測試帶來極大威脅。為應對低質量文本問題,各類文本過濾方案層出不窮。
目前文本過濾方法多基于專家制定的過濾規則,僅可對已知的文本質量問題進行有效過濾,無法應對層出不窮的新式文本質量問題。并且由于專家知識無法做到完全全面以及個人主觀性問題,過濾規則往往無法全面過濾問題文本。
發明內容
有鑒于此,提供一種文本過濾方法,解決人工篩選、過濾文本耗時耗力、效率低、成本高且質量低的問題。
本申請實施例提供了一種文本過濾方法,所述方法包括:
基于語言模型獲得文本流暢度;
基于自定義構建的有效詞詞典,獲得有效詞率;
當所述文本流暢度滿足第一預設閾值且所述有效詞率滿足第二預設閾值,則對所述文本執行過濾操作。
在一實施例中,所述基于語言模型獲得文本流暢度,包括:
基于字節對編碼方法將文本令牌化,生成子詞序列;
將所述子詞序列中的子詞依次使用標識符進行替換,生成樣本矩陣;
基于所述樣本矩陣,利用語言模型提取流暢度特征矩陣;
根據所述流暢度特征矩陣,獲得文本的困惑度并計算獲得文本流暢度。
在一實施例中,所述基于自定義構建的有效詞詞典,獲得有效詞率,包括:
利用分詞工具對所述文本執行分詞操作,生成分詞結果。
基于自定義構建的有效詞詞典,計算所述文本中有效詞數量與分詞結果中分詞總數量的比值;其中,有效詞為所述有效詞詞典中包含的詞。
在一實施例中,所述自定義構建的有效詞詞典的構建方法,包括:
對預設數量文本進行預處理,生成預處理結果;
對所述預處理結果進行分詞操作,并進行詞頻統計,生成詞頻統計結果;
對所述詞頻統計結果按照從高到低的順序排序,生成詞頻排序結果;
獲得所述詞頻排序結果前預設數量個詞,生成有效詞詞典。
在一實施例中,所述根據所述流暢度特征矩陣,獲得所述文本的困惑度,包括:
獲得所述樣本矩陣中每個標識符位置上為原詞的概率;其中,所述原詞為標識符替換前的子詞;
累乘所述文本中每個標識符位置上為原詞的概率,獲得所述文本存在的概率;
基于所述文本存在的概率,獲得所述文本的困惑度。
在一實施例中,所述基于所述文本存在的概率,獲得所述文本的困惑度,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鵬城實驗室,未經鵬城實驗室許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011645385.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:等離子清洗設備
- 下一篇:一種外墻仿真度的測量方法以及測量裝置





