[發明專利]用于處理文本的方法和裝置在審
| 申請號: | 202010134249.7 | 申請日: | 2020-03-02 |
| 公開(公告)號: | CN112307748A | 公開(公告)日: | 2021-02-02 |
| 發明(設計)人: | 不公告發明人 | 申請(專利權)人: | 北京字節跳動網絡技術有限公司 |
| 主分類號: | G06F40/232 | 分類號: | G06F40/232;G06F40/205;G06F40/253;G10L15/26 |
| 代理公司: | 北京海智友知識產權代理事務所(普通合伙) 11455 | 代理人: | 鞏靖 |
| 地址: | 100041 北京市石景山區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 處理 文本 方法 裝置 | ||
1.一種用于處理文本的方法,包括:
獲取用戶書寫的內容對應的文本作為用戶文本;
確定所述用戶文本對應的語音的語音特征,以及利用所述語音特征進行語音識別以得到識別文本;
從所述用戶文本中選取與所述識別文本中對應的字不同的字作為差異字,得到差異字集;
根據所述差異字集,確定所述用戶書寫的內容的處理結果,其中,所述處理結果用于指示所述用戶書寫的內容中出現的疑似錯別字。
2.根據權利要求1所述的方法,其中,所述根據所述差異字集,確定所述用戶書寫的內容的處理結果,包括:
對于所述差異字集中的差異字,從所述用戶文本中提取該差異字所在的詞組成該差異字對應的詞集;根據該差異字對應的詞集,確定該差異字是否為疑似錯別字。
3.根據權利要求2所述的方法,其中,所述根據該差異字對應的詞集,確定該差異字是否為疑似錯別字,包括:
確定預設的詞庫中是否包括該差異字對應的詞集中的詞;
響應于確定所述詞庫不包括該差異字對應的詞集中的詞,確定該差異字作為疑似錯別字。
4.根據權利要求1所述的方法,其中,所述方法還包括:
從所述用戶文本中選取屬于預設的常錯字詞庫中的字和詞作為候選字詞,得到候選字詞集;
對于所述候選字詞集中的候選字詞,確定該候選字詞是否為疑似錯別字;響應于確定該候選字詞為疑似錯別字,更新所述處理結果。
5.根據權利要求4所述的方法,其中,所述確定該候選字詞是否為疑似錯別字,包括:
根據該候選字詞對應的語法規則,確定該候選字詞是否為疑似錯別字。
6.根據權利要求3所述的方法,其中,所述方法還包括:
接收針對所述處理結果的用戶反饋信息;
根據所述用戶反饋信息,更新所述詞庫。
7.根據權利要求1-6之一所述的方法,其中,所述方法還包括:
根據所述用戶反饋信息,更新針對所述用戶構建的錯別字集。
8.一種用于處理文本的裝置,包括:
獲取單元,被配置成獲取用戶書寫的內容對應的文本作為用戶文本;
識別單元,被配置成確定所述用戶文本對應的語音的語音特征,以及利用所述語音特征進行語音識別以得到識別文本;
選取單元,被配置成從所述用戶文本中選取與所述識別文本中對應的字不同的字作為差異字,得到差異字集;
處理單元,被配置成根據所述差異字集,確定所述用戶書寫的內容的處理結果,其中,所述處理結果用于指示所述用戶書寫的內容中出現的疑似錯別字。
9.一種電子設備,包括:
一個或多個處理器;
存儲裝置,其上存儲有一個或多個程序;
當所述一個或多個程序被所述一個或多個處理器執行,使得所述一個或多個處理器實現如權利要求1-7中任一所述的方法。
10.一種計算機可讀介質,其上存儲有計算機程序,其中,該程序被處理器執行時實現如權利要求1-7中任一所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京字節跳動網絡技術有限公司,未經北京字節跳動網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010134249.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于處理信息的方法和裝置
- 下一篇:添加參會成員的方法、裝置和電子設備





