[發明專利]文本糾錯方法和裝置有效
| 申請號: | 201911029376.4 | 申請日: | 2019-10-28 |
| 公開(公告)號: | CN112733529B | 公開(公告)日: | 2023-09-29 |
| 發明(設計)人: | 劉恒友;李辰;包祖貽;徐光偉;李林琳 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F40/232 | 分類號: | G06F40/232;G06F16/33 |
| 代理公司: | 北京展翼知識產權代理事務所(特殊普通合伙) 11452 | 代理人: | 屠長存 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 糾錯 方法 裝置 | ||
本發明公開了一種文本糾錯方法和裝置。其中,通過獲取所述文本所包含的多個元素;確定所述多個元素中至少一個元素的特征數據;以所述多個元素及所述特征數據為特征,生成所述文本的特征集;基于所述特征集,對所述文本的錯誤情況進行預測;以及基于預測結果,對所述文本進行糾錯。由此,為降低文本誤糾率,提升文本糾錯質量提供支持。
技術領域
本發明涉及信息檢索技術領域,特別涉及一種文本糾錯方法和裝置。
背景技術
隨著互聯網的普及,互聯網上的信息也越來越豐富,在各種搜索應用場景下,人們通過在搜索欄輸入查詢語句(query)可以便捷地獲取到其需要的信息。在這其中,用戶在進行檢索時,經常會出現輸入錯誤的query的情況。
當前,大多數的搜索引擎引入了糾錯機制,即對用戶輸入的query進行糾錯,以將用戶輸入的錯誤的query進行糾正為正確的query,以便于向用戶返回與其需求相符合的搜索結果。然而,其中往往會出現誤糾的情況,例如將用戶輸入的正確的query誤糾為錯誤query。這樣,會導致向用戶返回的搜索結果不符合用戶需求,極大地影響用戶的搜索體驗。
因此,仍然需要一種改進的糾錯方案,以降低誤糾率,改善用戶體驗。
發明內容
本公開的目的是提供一種文本糾錯方法和裝置,以為降低誤糾率、改善用戶體驗提供支持。
根據本公開的第一個方面,提供了一種文本糾錯方法,包括:獲取所述文本所包含的多個元素;確定所述多個元素中至少一個元素的特征數據;以所述多個元素及所述特征數據為特征,生成所述文本的特征集;基于所述特征集,對所述文本的錯誤情況進行預測;以及基于預測結果,對所述文本進行糾錯。
可選地,所述元素包括字符和/或詞語和/或二元分詞;
可選地,所述特征數據包括:字符和/或詞語的詞性特征;以及/或者元素間關聯特征。
可選地,所述元素間關聯特征包括下述至少一項:字符在詞語中的位置特征;元素間依存關系特征;元素間相關性特征。
可選地,所述特征數據還包括:元素的兩個或更多個特征的組合特征。
可選地,所述組合特征包括下述至少一項:所述元素在詞語中的位置特征與所述詞語的詞性特征的組合特征;所述元素在詞語和/或二元分詞中的位置特征與所述詞語和/或二元分詞的組合特征;所述元素的詞性特征與所述元素間相關性特征的組合特征。
可選地,獲取所述文本所包含的多個元素的步驟包括:對所述文本進行分詞處理以得到所述元素,并且/或者確定所述多個元素中至少一個元素的特征數據的步驟包括下述至少一項:對所述文本進行詞性標注處理以得到所述字符和/或詞語的詞性特征;對所述文本進行依存句法分析處理以得到所述元素間依存關系特征;從特征數據庫中獲取元素間相關性特征。
可選地,生成所述文本的特征集的步驟包括:從特征數據庫獲取各個所述特征對應的特征標識,所述特征數據庫是通過對文本數據集進行處理得到的,所述特征數據庫中關聯地存儲有基于所述文本數據集得到的多個特征及其分別對應的特征標識,所述多個特征包括從所述文本數據集中提取的多個元素以及元素的特征數據;以及基于所述特征標識,生成所述特征集。
可選地,所述文本數據集包括下述的至少一項:通用領域數據集;垂直領域數據集;網絡百科數據集。
可選地,所述特征數據庫還關聯地存儲有所述多個特征分別對應的特征向量,基于所述特征標識生成所述特征集的步驟還包括:基于特征標識獲取所述多個特征分別對應的特征向量;組合所獲取的特征向量得到所述特征集。
可選地,所述特征向量是通過對所述文本數據集中提取的所述多個元素和元素的特征數據進行特征訓練而得到的。
可選地,基于所述特征集,利用錯誤預測模型,對所述文本的錯誤情況進行預測。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911029376.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種利用含氟高分子制備氮摻雜碳材料的方法
- 下一篇:無線網絡系統





