[發明專利]文本審核方法、裝置、電子設備、存儲介質及程序產品有效
| 申請號: | 202011443455.2 | 申請日: | 2020-12-08 |
| 公開(公告)號: | CN112597768B | 公開(公告)日: | 2022-06-28 |
| 發明(設計)人: | 丁鑫哲;王倩倩;劉瑛;劉凱;李婷婷 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/30;G06F40/216 |
| 代理公司: | 北京鴻德海業知識產權代理有限公司 11412 | 代理人: | 田宏賓 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 審核 方法 裝置 電子設備 存儲 介質 程序 產品 | ||
1.一種文本審核方法,其中,所述方法包括:
獲取待審核文本的待審核分句;
基于所述待審核分句,從數據庫中召回所述待審核分句對應的多個候選信息;
基于所述多個候選信息的打分結果,獲取與所述待審核分句最相關的候選信息;其中,所述打分結果為基于各候選信息對應的特征信息和預先訓練的打分模型獲得的;其中,所述各候選信息對應的特征信息,包括如下至少一種:基于各所述候選信息與所述待審核分句所獲取的最長公共子序列相關的特征;召回的各所述候選信息與所述待審核分句的相似度;基于各所述候選信息與所述待審核分句的時間信息所獲取的各所述候選信息的時效性分數;以及各所述候選信息中的候選語句與所述待審核分句的語義相似度;
將所述最相關的候選信息和所述待審核分句輸入預先訓練的審核模型中,由所述審核模型生成并輸出審核結果,包括:將最相關的候選信息和待審核分句進行對比,以檢測待審核分句是否正確,若待審核分句不正確,標識出錯誤的內容,以及,對待審核分句錯誤的內容進行分類,并標識錯誤類別,并輸出糾正后的內容。
2.根據權利要求1所述的方法,其中,基于所述待審核分句,從數據庫中召回所述待審核分句對應的多個候選信息,包括如下至少一種:
基于所述待審核分句,采用搜索的方式,從所述數據庫中召回多個候選文檔信息;
基于trie樹結構,從所述數據庫中召回所述待審核分句的多個候選語句信息;和
基于simhash算法,從所述數據庫中召回所述待審核分句的多個候選文檔信息。
3.根據權利要求2所述的方法,其中,基于所述待審核分句,采用搜索的方式,從所述數據庫中召回多個候選文檔信息,包括:
采用彈性搜索的方式,從所述數據庫中召回所述待審核分句的多個備選文檔信息;
采用預先訓練的語義表示模型,基于相似度,從所述數據庫中召回所述待審核分句的多個備選文檔信息;
基于所述待審核分句和各所述備選文檔信息,分別提取召回的各所述備選文檔信息對應的至少一個相關特征信息;
基于各所述備選文檔信息對應的所述至少一個相關特征信息,采用預先訓練的相關度打分模型,獲取各所述備選文檔信息與所述待審核分句的相關度;
基于各所述備選文檔信息與所述待審核分句的相關度、以及預設的相關度閾值,從召回的所有所述備選文檔信息中篩選所述多個候選文檔信息。
4.根據權利要求1-3任一所述的方法,其中,基于所述多個候選信息的打分結果,獲取與所述待審核分句最相關的候選信息,包括:
對所述多個候選信息中各所述候選信息進行打分;
基于各所述候選信息的打分結果,從所述多個候選信息中獲取與所述待審核分句最相關的候選信息。
5.根據權利要求4所述的方法,其中,對所述多個候選信息中各所述候選信息進行打分,包括:
基于各所述候選信息和所述待審核分句,獲取各所述候選信息對應的特征信息;
基于各所述候選信息對應的所述特征信息和預先訓練的打分模型,對各所述候選信息進行打分。
6.根據權利要求5所述的方法,其中,基于各所述候選信息和所述待審核分句,獲取各所述候選信息對應的特征信息,包括如下至少一種:
基于各所述候選信息與所述待審核分句,獲取最長公共子序列相關的特征;
獲取召回的各所述候選信息與所述待審核分句的相似度;
基于各所述候選信息與所述待審核分句的時間信息,獲取各所述候選信息的時效性分數;以及
獲取各所述候選信息中的候選語句與所述待審核分句的語義相似度。
7.根據權利要求6所述的方法,其中,基于各所述候選信息與所述待審核分句,獲取最長公共子序列相關的特征,包括:
基于各所述候選信息與所述待審核分句,獲取最長公共子序列;
對于各所述候選信息,獲取對應的所述最長公共子序列生成過程中的跳字個數與對應的所述最長公共子序列的比例、對應的所述最長公共子序列與所述待審核分句的長度的比例以及對應的所述最長公共子序列生成過程中的跳字個數與所述待審核分句的長度的比例。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011443455.2/1.html,轉載請聲明來源鉆瓜專利網。





