[發明專利]基于人名起源分類的人名音譯方法有效
| 申請號: | 201210566217.X | 申請日: | 2012-12-24 |
| 公開(公告)號: | CN103020046A | 公開(公告)日: | 2013-04-03 |
| 發明(設計)人: | 趙鐵軍;李婷婷;張春越;曹海龍 | 申請(專利權)人: | 哈爾濱工業大學 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28 |
| 代理公司: | 哈爾濱市松花江專利商標事務所 23109 | 代理人: | 王艷萍 |
| 地址: | 150001 黑龍*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 人名 起源 分類 音譯 方法 | ||
1.基于人名起源分類的人名音譯方法,其人名起源分類特征、方法和多系統融合方法按照以下步驟進行:
一、人名起源分類:
根據人名起源特征模板采用logistic回歸模型,進行計算:
公式一和公式二中K的值是6,Y為1-6,其中1表示中國,2表示英美,3表示阿拉伯,4表示俄國,5表示日本,6表示韓國,x為人名起源特征模板,P表示起源的概率,w是特征的權重向量;
步驟一中所述的人名起源特征模板為中文人名起源特征模板或英文人名起源特征模板;
中文人名起源特征模板為語言模型、字的TF-IDF、長度和姓氏;
語言模型為整合1-gram模型、整合2-gram模型和整合3-gram模型,所述整合n-gram模型是防止該類特征數量過于龐大,而基于最小方差將n-gram的概率特征值劃分到1-100個區間上,形成100個特征;長度為漢字字符數;姓氏為姓氏置信度,姓氏置信度為姓氏出現的次數除以出現的總次數所得的商;
字的TF-IDF為“名”單字TF和“名”單字IDF,根據人名語料統計出人名常用字并記錄每個常用字的字頻,得到6類人名常用字表,然后用下面的兩個公式計算TF和IDF:
在公式三及公式四中,x代表第i個字在訓練語料中的字頻,分母是字表中所有字在訓練語料中全部的出現次數,N代表字表中字的個數,DF表示包含i的人名起源類別數;
英文人名起源特征模板為字符語言模型、音節的語言模型、音節的TF-IDF和長度,
語言模型為整合2-gram模型、整合3-gram模型和整合4-gram模型,音節的語言模型為整合1-gram模型、整合2-gram模型和整合3-gram模型,所述整合n-gram模型是防止該類特征數量過于龐大,而基于最小方差將n-gram的概率特征值劃分到1-100個區間上,形成100個特征;長度為字符個數和音節個數,并且采用下述的方法將英文切分成音節:
1、將‘x’替換成‘ks’;
2、{a,o,e,i,u}是基本的元音字符,y如果在輔音后面當作元音處理;
3、當‘w’前面是‘a,e,o’且后面不是‘h’的時候,‘w’和之前的元音當作一個新的元音符號;
4、除了{iu,eo,io,oi,ia,ui,ua,uo}外,其余的連續的元音當作一個新的元音符號處理;
5、將挨著的輔音分開,將元音和緊跟著的輔音分開;
6、輔音和其后的元音形成一個音節,其他的孤立元音和輔音作為單獨的音節;
音節的TF-IDF為音節的TF和音節的IDF,根據人名語料統計出人名常用音節并記錄每個常用音節的頻率,得到6類人名常用音節表,然后用下面的兩個公式計算TF和IDF:
在公式三及公式四中,x代表第i個字在訓練語料中的音節的頻率,分母是字表中所有音節在訓練語料中全部的出現次數,N代表字表中音節的個數,DF表示包含i音節的人名起源類別數;
二、線性插值系統融合:
公式五
Q(0,$)=0??????????????????????????公式六
公式六、公式七和公式八中T代表的是翻譯結果,P代表的是翻譯的結果概率,t代表翻譯到源語言的第幾個位置,在公式五中,λi代表S屬于起源i的概率,公式五是多系統融合的策略,公式六、七、八是解碼算法。
2.根據權利要求1所述的基于人名起源分類的人名音譯方法,其特征在于步驟一所述中文人名起源特征模板中采用SRILM工具訓練語言模型,其中每個n-gram都有概率,n為1、2或3,統計所有n-gram概率的一維分布,根據這個分布劃分出100個區間,這100個區間是對n-gram特征的一個聚類,每個區間代表一個類別,每個區間內的方差和最小,區間平均值間的方差和最大,利用n-gram的數據求100個區間的分界點:
公式九中λ代表100個分界點的集合,xi代表每一個n-gram的概率值,yj代表第j個分界區間的平均值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學,未經哈爾濱工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210566217.X/1.html,轉載請聲明來源鉆瓜專利網。





