[發明專利]一種基于自信息損失補償的機器生成文本檢測方法有效
| 申請號: | 202011631513.4 | 申請日: | 2020-12-31 |
| 公開(公告)號: | CN112580351B | 公開(公告)日: | 2022-04-19 |
| 發明(設計)人: | 馮翱;王維寬;宋馨宇;張學磊;張舉;蔡佳志 | 申請(專利權)人: | 成都信息工程大學 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/284;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 成都智涌知識產權代理事務所(普通合伙) 51313 | 代理人: | 張洪 |
| 地址: | 610200 四川省成都*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 信息 損失 補償 機器 生成 文本 檢測 方法 | ||
本發明涉及一種基于自信息損失補償的機器生成文本檢測方法,包括首先確定細分領域并對爬取到的數據進行清洗,再對數據集中的文本數據進行分詞并處理為固定長度,通過詞嵌入工具得到文本數據的初始詞向量表示矩陣,基于矩陣進行編碼獲得文本雙向信息,然后拼接雙向信息,編碼邏輯特征并捕獲最大特征,對捕獲的特征進行自信息損失補償輸入全連接層,本發明方法學習領域文本中的邏輯信息,包括詞序邏輯、上下文承接邏輯、句子間主題一致性邏輯等邏輯信息,提高文本分類的準確性。對學習過程中損失的有價值信息利用文本自身信息進行補償,補足了詞序信息丟失這個短板,提升了文本分類準確率,減少了人為操作的工作量。
技術領域
本發明涉及文本分類領域,尤其涉及一種基于自信息損失補償的機器生成文本檢測方法。
背景技術
大數據時代的來臨,網絡文本呈指數級增長,質量參差不齊的文本,對閱讀者的審閱能力提出了挑戰,機器生成文本是其中大數量級組成部分。機器生成文本的生成邏輯為根據前文n-gram信息生成當前位置的詞,這是一個概率計算問題。從文本生成精度與生成模型生產成本的正比關系分析,目前公眾網絡中的機器生成文本精度較低,存在著用詞不當、語句不通、邏輯混亂的情況。
以國內某知名搜索引擎為例,當我們進行信息檢索檢索時,檢索結果呈現出大量的高相似度文本。這些文本中真正的高質量高價值的內容可能只是少數幾篇,其他主題甚至內容相同或相似的文本,可能為網絡商家基于流量池效應和版權約束進而根據原文通過生成模型產出的機器生成文本。這一類文本閱讀性不盡相同,以我們慣用的閱讀習慣并不能很好的閱讀和理解,這種情況降低了檢索質量和檢索效率。
而對于各種垂直領域的專業問答平臺而言,基于回答問題可帶來的實際性個人收益,回答者通常更追求答題數量而非答題質量。某些平臺雖然會對發布的評論進行篩選過濾,但這種粗過濾的方式通常用于過濾灌水一類毫無內容的干擾性文本,對于一些閱讀性低但確實具有價值的內容,特別是專業性外文的機翻文本,雖然文本結構混亂但確實是具有專業性價值的回答,平臺的過濾機制是無效的。因為一詞多義和語法的不同,特別是截取的文本片段中指代性用詞的指代不明,目前的翻譯機器難以做到高精準翻譯。在實際應用中,例如求醫問藥類的問答平臺,提問者沒有足夠的醫學背景來完全分辨回答的科學性和準確性,基于慣性思維,回答越專業越可信,若是一些專業的翻譯文本出現藥品指代錯誤的情況,可能會造成嚴重后果。
目前各類互聯網平臺還沒有出臺相關機器生成文本的檢測機制,更多還是需要人為對檢索出的文本數據進行肉眼識別和過濾。對于一些錯的特別離譜的文本,普通用戶的人為識別通常具有較高的準確率和效率。對于一些對錯混雜的文本,普通用戶雖然也可通過人為達到精準識別,但可能要讀完全文才能得出判斷,效率較低。而對于各類垂直領域的專業性機器生成文本,可能需要一定的領域知識背景甚至是領域專家才能人為識別出來。
人為識別依舊存在局限性,因為個人特有的閱讀習慣,可能會忽略某些語言邏輯錯誤的地方。例如短語“研表究明”這樣的詞序錯誤,放到段落文本中,這樣的錯誤可能晃眼就過去了,大概率無法被精準捕獲。同時機器生成文本只是按照模型學習到的知識依據概率生成,不能像人為書寫一樣具有思考的過程,其生成的文本內容是否符合自然規律和科學研究成果,生成機器并不會在此方面做出考量。
進一步的,基于慣用的閱讀習慣,去識別文本中用詞錯誤、語句不通、邏輯混亂的信息,由主觀意識做出判斷,但因為人為判斷主觀性較強,且每個人的閱讀習慣不同,判斷標準無法統一。且即使是人為書寫的文本,也可能存在用詞錯誤或次序不當的情況,僅基于這樣的局部信息做出判斷略顯偏頗。但針對長篇文本,在快速閱讀的情況下,人的記憶又很難整合全局信息做出指導。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都信息工程大學,未經成都信息工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011631513.4/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





