[發明專利]韓文音譯方法及裝置有效
| 申請號: | 201611207837.9 | 申請日: | 2016-12-23 |
| 公開(公告)號: | CN106649291B | 公開(公告)日: | 2020-10-09 |
| 發明(設計)人: | 陶縣俊;邱宇揚;黃卓騰;姜寧 | 申請(專利權)人: | 廣州酷狗計算機科技有限公司 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58 |
| 代理公司: | 北京三高永信知識產權代理有限責任公司 11138 | 代理人: | 郭晶 |
| 地址: | 510660 廣東省廣州*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 音譯 方法 裝置 | ||
本發明公開了一種韓文音譯方法及裝置,屬于語言處理領域。所述方法包括:將韓文信息進行拆分,得到若干個韓文文字;從字庫中查詢與韓文文字對應的注音片段,字庫存儲有韓文文字和注音片段的對應關系;將查詢到的注音片段按照韓文文字在韓文信息中的順序進行拼接,得到與韓文信息對應的注音信息。由于字庫中預先存儲有韓文文字和注音片段的對應關系,本發明通過從字庫中查詢與韓文文字對應的注音片段,使得當待音譯的韓文信息中包括冷僻詞組或網絡流行新詞組或自造詞組時,仍能查詢到該韓文信息中每個韓文文字對應的注音片段,從而進行準確的注音,提高了音譯結果的準確率。
技術領域
本發明實施例涉及語言處理領域,特別涉及一種韓文音譯方法及裝置。
背景技術
音譯(英文:transliteration)技術,用于將一種語言中的詞匯翻譯為另一種語言中與之發音相近的詞匯或注音。目前使用較為廣泛的韓文音譯技術是基于詞組庫的音譯技術。
基于詞組庫的韓文音譯技術的核心思想是:人工預先采集韓文中的常用詞組及每個常用詞組對應的注音片段序列,建立詞組庫;服務器對于待音譯的韓文信息,進行拆分得到若干組韓文詞組,對于每組韓文詞組從詞組庫中選擇出匹配度高于閾值的注音片段序列,將選擇出的若干組注音片段按照韓文詞組對應的順序進行拼接,得到與輸入的韓文信息對應的注音信息。
由上述方法可知,詞組庫中存儲的為韓文中的常用詞組,且這些常用詞組是人工進行采集的,因此該詞組庫并不能夠涵蓋韓文中所有的詞組,當待音譯的韓文詞組在詞組庫中不存在時,根據匹配度選擇出的注音片段序列并不是該韓文詞組的準確注音,從而出現音譯結果準確率低的問題。
發明內容
為了解決目前的韓文音譯技術的音譯結果準確率低的問題,本發明實施例提供了一種韓文音譯方法及裝置。所述技術方案如下:
第一方面,提供了一種韓文音譯方法,該方法包括:
將韓文信息進行拆分,得到若干個韓文文字;
從字庫中查詢與韓文文字對應的注音片段,字庫存儲有韓文文字和注音片段的對應關系;
將查詢到的注音片段按照韓文文字在韓文信息中的順序進行拼接,得到與韓文信息對應的注音信息。
可選地,將韓文信息進行拆分,得到若干個韓文文字,包括:
檢測韓文信息中相鄰的兩個韓文文字之間是否存在待變音的韓文文字;
若存在待變音的韓文文字,則將待變音的韓文文字替換為變音后的韓文文字;
根據變音后的韓文文字得到與韓文信息對應的若干個韓文文字。
可選地,檢測韓文信息中相鄰的兩個韓文文字之間是否存在待變音的韓文文字,包括:
以預定標識作為拆分位置,將韓文信息拆分為若干組韓文詞組;預定標識包括空格符號和標點符號中的至少一種;
檢測韓文詞組中相連的兩個韓文文字之間是否存在待變音的韓文文字。
可選地,檢測韓文詞組中相連的兩個韓文文字之間是否存在待變音的韓文文字,包括:
獲取第一韓文文字的第一單音節序列和第二韓文文字的第二單音節序列,第一韓文文字和第二韓文文字是韓文詞組中相鄰的兩個韓文文字;
提取第一單音節序列的尾部音節和第二單音節序列的首部音節;
檢測尾部音節和首部音節是否屬于變音音節組合;
若尾部音節和首部音節屬于變音音節組合,則確定存在待變音的韓文文字。
可選地,將待變音的韓文文字替換為變音后的韓文文字,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州酷狗計算機科技有限公司,未經廣州酷狗計算機科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611207837.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:語音翻譯方法及系統
- 下一篇:人工智能產生的新對應用特定顏色顯示出來的方法





