[發明專利]文本生成方法、裝置、計算機設備及計算機可讀存儲介質有效
| 申請號: | 202110259633.4 | 申請日: | 2021-03-10 |
| 公開(公告)號: | CN112766236B | 公開(公告)日: | 2023-04-07 |
| 發明(設計)人: | 賈偉;汪安輝 | 申請(專利權)人: | 拉扎斯網絡科技(上海)有限公司 |
| 主分類號: | G06V30/182 | 分類號: | G06V30/182;G06V30/19 |
| 代理公司: | 北京中強智尚知識產權代理有限公司 11448 | 代理人: | 黃耀威 |
| 地址: | 200333 上海*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 生成 方法 裝置 計算機 設備 可讀 存儲 介質 | ||
本申請公開了一種文本生成方法、裝置、計算機設備及計算機可讀存儲介質,涉及互聯網技術領域,為待處理字符串的每個單字符確定音近、結構近、形近、筆畫近的字符以及繁體字符作為候選字符,并計算相似度,選擇變異單字符生成異常字符串,窮盡每個字符串的異常字符串,擴大文本監管范圍,提升識別的準確性。所述方法包括:獲取待處理字符串,劃分為多個單字符;為多個單字符中每個單字符確定多個候選字符;計算每個單字符與候選字符的相似度,將相似度符合預設條件的候選字符作為變異單字符;按照多個單字符在待處理字符串中的排列順序,對多個單字符以及多個單字符中每個單字符對應的變異單字符依次進行排列組合,得到待處理字符串的異常字符串。
技術領域
本申請涉及互聯網技術領域,特別是涉及一種文本生成方法、裝置、計算機設備及計算機可讀存儲介質。
背景技術
隨著互聯網技術的不斷發展,線上平臺服務的用戶量越來越多,很多線上的平臺都會對用戶輸入的文本內容進行監管,而針對平臺上不得出現與不正當言論、觸底類文字等相關內容的規定,當下很多用戶會使用變異文本內容來躲避防御。因此,很多平臺會通過預設關鍵字文本、生成與關鍵字相似的文本內容等策略來擴大平臺的防御范圍,使對底線類文本內容的防御更加準確。
相關技術中,平臺在對底線類文本內容進行防御時,通常由人工進行異常字符的選取,將人工選取的異常字符配置在平臺中,基于這些異常字符形成防御范圍,當識別到與異常字符相同的文本內容出現在平臺時,執行防御操作。
在實現本申請的過程中,申請人發現相關技術至少存在以下問題:
在目前復雜多變的互聯網環境下,為了躲避平臺的防御而生成的變異文本層出不窮,這些變異文本超出了平臺配置的異常字符形成的防御范圍,令平臺對底線類文本內容的監管范圍狹窄,導致底線類文本內容的識別不夠準確。
發明內容
有鑒于此,本申請提供了一種文本生成方法、裝置、計算機設備及計算機可讀存儲介質,主要目的在于解決目前變異文本超出了平臺配置的異常字符形成的防御范圍,令平臺對底線類文本內容的監管范圍狹窄,導致底線類文本內容的識別不夠準確的問題。
依據本申請第一方面,提供了一種文本生成方法,該方法包括:
獲取待處理字符串,將所述待處理字符串劃分為多個單字符;
為所述多個單字符中每個單字符確定多個候選字符,所述多個候選字符與相應單字符的拼音字符串一致,和/或與所述單字符的字符結構匹配,和/或與所述單字符的字符形狀匹配,和/或與所述單字符的字符筆畫匹配,和/或是所述單字符的繁體字符;
計算所述每個單字符與基于所述單字符確定的多個候選字符的相似度,將所述多個候選字符中相似度符合預設條件的候選字符作為所述單字符的變異單字符,得到所述每個單字符的變異單字符;
按照所述多個單字符在所述待處理字符串中的排列順序,對所述多個單字符以及所述多個單字符中每個單字符對應的變異單字符依次進行排列組合,得到所述待處理字符串的異常字符串。
可選地,所述為所述多個單字符中每個單字符確定多個候選字符,包括:
確定所述每個單字符的拼音字符串,在預設字符庫里提取拼音字符串與所述單字符的拼音字符串一致的所述多個候選字符;和/或,
確定所述每個單字符的字符結構,在所述預設字符庫里提取字符結構與所述單字符的字符結構匹配的所述多個候選字符;和/或,
將所述每個單字符拆分為多個字符區域,在所述預設字符庫中提取包括一個或一個以上所述字符區域的多個預設字符作為與所述單字符的字符形狀匹配的多個候選字符;和/或,
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于拉扎斯網絡科技(上海)有限公司,未經拉扎斯網絡科技(上海)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110259633.4/2.html,轉載請聲明來源鉆瓜專利網。





