[發明專利]一種基于深度學習的盲文轉中文方法在審
| 申請號: | 202010466752.2 | 申請日: | 2020-05-28 |
| 公開(公告)號: | CN111814437A | 公開(公告)日: | 2020-10-23 |
| 發明(設計)人: | 于紅雷;鄒可;孫俊偉 | 申請(專利權)人: | 杭州視氪科技有限公司 |
| 主分類號: | G06F40/16 | 分類號: | G06F40/16;G06F40/226;G06F40/126;G06N3/04;G06N3/08 |
| 代理公司: | 杭州伍博專利代理事務所(普通合伙) 33309 | 代理人: | 熊小芬 |
| 地址: | 311121 浙江省杭州市余杭區余*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 盲文 中文 方法 | ||
1.一種基于深度學習的盲文轉中文方法,其特征是,具體包括如下步驟:
(1)對盲文文本預處理:盲文文本預處理對盲文做編碼歸一化處理;
(2)深度學習模型構建:深度學習算法模型學習編碼后的文本規律;
(3)訓練深度學習模型:通過深度學習模型翻譯出對應的中文內容;
(4)文本糾錯:在文本糾錯單元對盲文中的錯別字進一步糾錯。
2.根據權利要求1所述的一種基于深度學習的盲文轉中文方法,其特征是,在步驟(1)中,盲文文本預處理的具體方法如下:
(11)對于盲文句子,根據盲文的特點,每一個中文字符對應的盲文都采用三方對齊表示,不足三方的用數字0填充表示;
(12)對填充對齊后的盲文句子進行編碼,轉換成十進制編碼字符串,編碼后的字符串映射到0到63的編碼空間,每個編碼后的十進制數對應一個0到63的數字;
(13)將每個編碼后的十進制數替換成0到63對應的十進制數字,替換后的數字序列就是預處理的最終結果。
3.根據權利要求2所述的一種基于深度學習的盲文轉中文方法,其特征是,在步驟(12)中,盲文句子進行編碼的具體方法如下:
(121)對每一個盲文點方所代表的數字集合,對每一個數字進行2N計算,其中N表示盲文點方中每一個點代表的數字;
(122)每一個盲文點方對所有的數字進行2N計算,然后求和,計算所得的數字就是編碼后的值。
4.根據權利要求2或3所述的一種基于深度學習的盲文轉中文方法,其特征是,在步驟(2)中,深度學習模型構建的具體方法如下:
(21)對編碼后的盲文句子進行詞嵌入編碼,輸出詞嵌入編碼后的詞向量;
(22)用cnn網絡提取句子的語法信息和單詞前后關聯信息;
(23)用雙向lstm網絡提取整個句子的句法結構信息;
(24)步驟(23)作為網絡的輸出,通過交叉熵作為損失函數loss。
5.根據權利要求4所述的一種基于深度學習的盲文轉中文方法,其特征是,在步驟(22)中,具體操作方法如下:
(221)該cnn網絡的輸入是經過詞嵌入編碼后的詞向量;
(222)詞向量經過三層一維卷積神經網絡,每一層的卷積核依次為7、5、3,用于提取不同長度句子中的語法信息和單詞前后關聯信息。
6.根據權利要求2或3所述的一種基于深度學習的盲文轉中文方法,其特征是,在步驟(3)中,訓練深度學習模型的具體方法如下:
(31)收集不同領域的中文文本,進行文本清洗,按句子分割,按照《國家通用盲文》規則,生成中盲對齊語料;
(32)根據步驟(1)所述的文本預處理算法,對中盲對齊語料中的盲文進行編碼;
(33)將常用漢字做成詞典,對中盲對齊語料中的中文句子進行編碼;
(34)中盲對齊語料中的盲文語句作為深度學習模型的input,中文句子作為深度學習模型的output。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州視氪科技有限公司,未經杭州視氪科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010466752.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:導熱油爐的節能減排控制方法及控制系統
- 下一篇:一種螺旋提升機





