[發明專利]文本糾錯方法和裝置有效
| 申請號: | 201811543962.6 | 申請日: | 2018-12-17 |
| 公開(公告)號: | CN109543022B | 公開(公告)日: | 2020-10-13 |
| 發明(設計)人: | 鄧卓彬;鄭利群;羅希意;付志宏;何徑舟 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06N3/02 |
| 代理公司: | 北京市鑄成律師事務所 11313 | 代理人: | 王珺;武晨燕 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 糾錯 方法 裝置 | ||
1.一種文本糾錯方法,其特征在于,包括:
對查詢內容中的待糾錯文本進行預處理,得到多個片段;
利用樹模型對每一片段的候選片段進行打分,得到第一打分結果;
利用深度神經網絡模型對每一片段的候選片段進行打分,得到第二打分結果;
將所述第一打分結果和所述第二打分結果融合,得到融合打分結果;
利用融合打分結果對每一片段的候選片段進行排序;
利用排序結果對所述待糾錯文本進行糾錯;
所述深度神經網絡模型的構建過程包括:
利用對輸入的錯誤文本的用戶糾錯結果,形成用戶反饋語料;
利用糾錯對向量LightPair2vec,對所述用戶反饋語料進行所述深度神經網絡模型的上下文建模,以對錯誤文本的正確替換文本進行擬合和記憶。
2.根據權利要求1所述的方法,其特征在于,所述利用樹模型對每一片段的候選片段進行打分,得到第一打分結果,包括:
對每一個片段進行短語替換表片段召回,得到每一片段的各候選片段;
將各所述候選片段輸入所述樹模型進行打分,得到第一打分結果。
3.根據權利要求1所述的方法,其特征在于,所述利用排序結果對所述待糾錯文本進行糾錯,包括:
對每個片段排序后的各候選片段進行解碼,選定融合打分結果的分值最高的候選片段為每個片段的結果片段;
將各結果片段組合形成所述待糾錯文本的糾錯結果文本。
4.根據權利要求1所述的方法,其特征在于,利用對輸入的錯誤文本的用戶糾錯結果,形成用戶反饋語料,包括:
獲取輸入的錯誤文本;
通過糾錯提示服務提供待選擇的替換文本;
如果檢測到某個替換文本被點擊確認,則將被點擊確認的文本作為正確替換文本;
將所述正確替換文本映射到用戶點擊標題,形成用戶反饋語料。
5.一種文本糾錯裝置,其特征在于,包括:
預處理模塊,用于對查詢內容中的待糾錯文本進行預處理,得到多個片段;
樹模型模塊,用于利用樹模型對每一片段的候選片段進行打分,得到第一打分結果;
深度神經網絡模塊,用于利用深度神經網絡模型對每一片段的候選片段進行打分,得到第二打分結果;
融合模塊,用于將所述第一打分結果和所述第二打分結果融合,得到融合打分結果;
排序模塊,用于利用融合打分結果對每一片段的候選片段進行排序;
糾錯模塊,用于利用排序結果對所述待糾錯文本進行糾錯;
還包括:深度神經網絡模型構建模塊,用于利用對輸入的錯誤文本的用戶糾錯結果,形成用戶反饋語料;利用糾錯對向量LightPair2vec,對所述用戶反饋語料進行所述深度神經網絡模型的上下文建模,以對錯誤文本的正確替換文本進行擬合和記憶。
6.根據權利要求5所述的裝置,其特征在于,所述樹模型模塊還用于:
對每一個片段進行短語替換表片段召回,得到每一片段的各候選片段;
將各所述候選片段輸入所述樹模型進行打分,得到第一打分結果。
7.根據權利要求5所述的裝置,其特征在于,所述排序模塊還用于:
對每個片段排序后的各候選片段進行解碼,選定融合打分結果的分值最高的候選片段為每個片段的結果片段;
將各結果片段組合形成所述待糾錯文本的糾錯結果文本。
8.根據權利要求7所述的裝置,其特征在于,所述深度神經網絡模型構建模塊還用于:
獲取輸入的錯誤文本;
通過糾錯提示服務提供待選擇的替換文本;
如果檢測到某個替換文本被點擊確認,則將被點擊確認的文本作為正確替換文本;
將所述正確替換文本映射到用戶點擊標題,形成用戶反饋語料。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811543962.6/1.html,轉載請聲明來源鉆瓜專利網。





