[發明專利]一種商戶名稱翻譯的方法及設備在審
| 申請號: | 202110426399.X | 申請日: | 2021-04-20 |
| 公開(公告)號: | CN113128240A | 公開(公告)日: | 2021-07-16 |
| 發明(設計)人: | 向橋梁 | 申請(專利權)人: | 連通(杭州)技術服務有限公司 |
| 主分類號: | G06F40/58 | 分類號: | G06F40/58;G06F40/289 |
| 代理公司: | 上海百一領御專利代理事務所(普通合伙) 31243 | 代理人: | 王奎宇 |
| 地址: | 310052 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 商戶 名稱 翻譯 方法 設備 | ||
本申請的目的是提供一種商戶名稱翻譯的方法及設備,本申請通過將待翻譯的商戶名稱按照字符級別以及單詞級別進行清洗,得到清洗后的商戶名稱;識別所述清洗后的商戶名稱中所包含的地址信息、組織形式信息以及店鋪信息,得到第一識別的商戶名稱;識別所述第一識別的商戶名稱中的行業信息以及企業字號信息,得到第二識別的商戶名稱;對所述第二識別的商戶名稱進行翻譯,得到翻譯后的商戶名稱。從而可以滿足對具有明顯行業屬性的非正式語言的翻譯,并且容易調整和迭代,翻譯結果準確度高。
技術領域
本申請涉及計算機領域,尤其涉及一種商戶名稱翻譯的方法及設備。
背景技術
在跨境外卡內用交易時,中國的商戶名字需要被翻譯成英文,一方面是為了和境外網絡交換商戶信息;另一方面是在收據里打印商家信息方便外卡持卡人查看,但是因技術規范要求和收據紙張長度的限制,對翻譯的長度有一定的要求,導致無法使用傳統軟件來翻譯,比如報文對名字的要求是不超過25個英文字符,則對應的中文平均不超過8個時,讓傳統的翻譯方法難以應用,通常翻譯出的商戶名稱被強行截斷后持卡人無法解讀。現有的傳統翻譯軟件采用的主要方法是在大量有標記的語言庫上進行訓練的,然后用于翻譯中文,該方式需要大量的投入用于標記語言庫,設計新型的算法使用大量的算力來計算,而對于明顯屬于行業屬性的非正式語言的效果欠佳。在對于明顯屬于行業屬性的非正式語言的翻譯中,還有拼音法,是將中文直接轉成拼音然后進行截斷,而這種準確度比較低,有用的信息少,截斷率超過80%;還有使用人工進行逐一翻譯,但這種方式速度較慢成本也高,無法廣泛應用。
發明內容
本申請的一個目的是提供一種商戶名稱翻譯的方法及設備,解決現有技術中傳統翻譯軟件需要大量的投入標記語言庫、計算量大、對屬于行業屬性的非正式語言的效果欠佳以及直接拼音翻譯準確度低的問題。
根據本申請的一個方面,提供了一種商戶名稱翻譯的方法,該方法包括:
將待翻譯的商戶名稱按照字符級別以及單詞級別進行清洗,得到清洗后的商戶名稱;
識別所述清洗后的商戶名稱中所包含的地址信息、組織形式信息以及店鋪信息,得到第一識別的商戶名稱;
識別所述第一識別的商戶名稱中的行業信息以及企業字號信息,得到第二識別的商戶名稱;
對所述第二識別的商戶名稱進行翻譯,得到翻譯后的商戶名稱。
可選地,識別所述清洗后的商戶名稱中所包含的地址信息、組織形式信息以及店鋪信息,包括:
采用地點詞庫和自定義規則識別所述清洗后的商戶名稱中所包含的地址信息,其中,所述地點詞庫包括省、市、縣及區的層次關系;
識別所述清洗后的商戶名稱中所含有的組織形式信息,所述組織形式信息包括個體戶形式和企業形式;
識別所述清洗后的商戶名稱中所包含的店鋪信息,所述店鋪信息包括中心、廣場、商行及商店。
可選地,識別所述第一識別的商戶名稱中的行業信息以及企業字號信息,包括:
按照分詞識別方式識別所述第一識別的商戶名稱中的行業信息;
根據識別出的行業信息確定企業字號信息。
可選地,所述分詞識別方式包括:
將所述第一識別的商戶名稱中的地址信息、組織形式信息以及店鋪信息進行刪除,得到刪除后的商戶名稱;
將所述刪除后的商戶名稱進行句子分詞,得到多個詞組;
從左到右逐一遍歷每一個詞組,判斷所遍歷到的詞組是否在預設的行業詞典中,將在預設的行業詞典中的詞組作為行業詞組;
根據所有的行業詞組確定行業信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于連通(杭州)技術服務有限公司,未經連通(杭州)技術服務有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110426399.X/2.html,轉載請聲明來源鉆瓜專利網。





