[發明專利]文本識別方法、拼寫糾錯方法及語音識別方法在審
| 申請號: | 201910632996.0 | 申請日: | 2019-07-12 |
| 公開(公告)號: | CN112287100A | 公開(公告)日: | 2021-01-29 |
| 發明(設計)人: | 高喆;蔣卓人;康楊楊;孫常龍;張瓊;司羅 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/30;H04W4/14 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 錢秀茹 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 識別 方法 拼寫 糾錯 語音 | ||
1.一種文本識別方法,其特征在于,包括:
獲取待識別文本;
確定所述文本中各個字符的包括字本體語義信息和字變異語義信息的第一字向量;
通過文本分類模型,至少根據所述第一字向量確定所述文本是否為垃圾文本。
2.根據權利要求1所述的方法,其特征在于,所述通過文本分類模型,并至少根據所述第一字向量確定所述文本是否為垃圾文本,包括:
將所述第一字向量作為文本分類模型的輸入數據,通過所述文本分類模型判斷所述文本是否為垃圾文本。
3.根據權利要求1所述的方法,其特征在于,所述通過文本分類模型,并至少根據所述第一字向量確定所述文本是否為垃圾文本,包括:
根據所述第一字向量和所述文本,確定所述各個字符的包括上下文語義信息的第二字向量;
將所述第二字向量作為文本分類模型的輸入數據,通過所述文本分類模型判斷所述文本是否為垃圾文本。
4.根據權利要求1所述的方法,其特征在于,所述第一字向量采用如下步驟確定:
確定所述各個字符的包括字變異語義信息的第三字向量;以及,獲取所述各個字符的包括字本體語義信息的第四字向量;
針對所述各個字符,根據所述第三字向量和所述第四字向量,確定所述第一字向量。
5.根據權利要求4所述的方法,其特征在于,所述根據所述第三字向量和所述第四字向量,并確定所述第一字向量,包括:
通過第一字向量確定模型包括的第一子模塊,根據所述第三字向量和所述第四字向量,確定字向量權重;
通過第一字向量確定模型包括的第二子模塊,根據所述字向量權重、所述第三字向量和所述第四字向量,確定所述第一字向量。
6.根據權利要求5所述的方法,其特征在于,所述通過文本分類模型,并至少根據所述第一字向量確定所述文本是否為垃圾文本,包括:
根據所述第一字向量和所述文本,確定所述各個字符的包括上下文語義信息的第二字向量;
將所述第二字向量作為文本分類模型的輸入數據,通過所述文本分類模型判斷所述文本是否為垃圾文本。
7.根據權利要求6所述的方法,其特征在于,所述第二字向量采用如下方式確定:
將所述第一字向量作為第二字向量確定模型的輸入數據,通過所述第二字向量確定模型,確定所述第二字向量。
8.根據權利要求7所述的方法,其特征在于,還包括:
從第一訓練數據集中學習得到所述第一字向量確定模型和所述第二字向量確定模型的模型參數;所述第一訓練數據包括訓練用文本及其是否為垃圾文本的標注信息之間的第一對應關系;
從第二訓練數據集中學習得到所述第一字向量確定模型、所述第二字向量確定模型和所述文本分類模型的模型參數;所述第二訓練數據包括訓練用文本及其是否為垃圾文本的標注信息之間的第二對應關系。
9.根據權利要求7所述的方法,其特征在于,所述第二字向量確定模型的網絡結構包括雙向長短期記憶網絡結構Bi-LSTM;
所述將所述第一字向量N作為第二字向量確定模型的輸入數據,包括:
將所述文本包括的第一字向量的正向序列作為第一LSTM的輸入數據;以及,將所述文本包括的第一字向量的反向序列作為第二LSTM的輸入數據。
10.根據權利要求4所述的方法,其特征在于,所述第三字向量采用如下方式確定:
根據字符與字符之間的變異相似度數據集、及字符與第五字向量間的第一對應關系集,確定所述第三字向量。
11.根據權利要求10所述的方法,其特征在于,所述變異相似度包括字音相似度和/或字形相似度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910632996.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種便于檢修的新能源照明裝置
- 下一篇:一種插件的配置方法及相關設備





