[發明專利]一種基于模糊神經網絡的句子匹配程度計算及對齊方法有效
| 申請號: | 201310604055.9 | 申請日: | 2013-11-25 |
| 公開(公告)號: | CN103617227A | 公開(公告)日: | 2014-03-05 |
| 發明(設計)人: | 戴光榮;宋玉春 | 申請(專利權)人: | 福建工程學院 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/28 |
| 代理公司: | 北京市商泰律師事務所 11255 | 代理人: | 陳朝陽 |
| 地址: | 350108 福建省*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 模糊 神經網絡 句子 匹配 程度 計算 對齊 方法 | ||
技術領域
本發明涉及語言自動翻譯技術領域,尤其涉及一種基于模糊神經網絡的句子匹配程度計算及對齊方法。
背景技術
語料庫(Corpus):運用計算機技術,按照一定的語言學原則,根據特定的語言研究目的而大規模收集并貯存在計算機中的真實語料。平行語料庫(Parallel?Corpus):由源語文本(Source?Text)及其平行對應的譯語文本(Target?Text)構成的雙語語料庫。根據對齊的語言層面,平行對齊分為詞匯、語句和段落等層面的對齊。雙語句級層面對齊(Sentential?Alignment?between?Source?and?Target?Languages):以句子為單位對源語文本進行切分,每個句子在譯語文本中相應的翻譯句子進行匹配,實現一一平行對應(句子定義為:以句號、問號、感嘆號、分號結尾的一串字符,或以句號+引號、問號+引號、感嘆號+引號等結尾的一串字符)。模糊理論(Fuzzy?Theory):在模糊集合理論基礎上發展起來的理論,包括模糊數學、模糊系統、不確定性和信息、模糊決策、模糊邏輯與人工智能等五個分支;模糊集合中,給定范圍內元素對它的隸屬關系不一定只有“是”或“否”兩種情況,而是用介于0和1之間的實數來表示隸屬程度,還存在中間過渡狀態。人工神經網絡(Artificial?Neural?Networks,簡寫為ANNs):簡稱為神經網絡(NNs)或稱作連接模型(Connection?Model),它是一種模仿動物神經網絡行為特征,進行分布式并行信息處理的算法數學模型;這種網絡依靠系統的復雜程度,通過調整內部大量節點之間相互連接的關系,從而達到處理信息的目的。英漢句子匹配程度(Matching?Degree?of?English-Chinese?Sentence):一英文語句和它對應翻譯成的中文語句是匹配的;當計算機判斷一個語句是不是另外一個語句的翻譯時,可以定量地描述其翻譯對應關系的可能性,這就是匹配的程度。
目前實現段落級和句子級文本對齊的方法有如下幾種,如基于長度的方法、基于詞匯的方法、基于長度與詞匯相結合的混合法、基于雙語詞典的方法等。
(一)基于長度的方法認為原文和譯文的長度之間存在一定的比例關系,譯文的句子長度與原文的句長成一定的正比例關系。對語源相近的語言,如英語與法語,這種方法尤其有效。Brown采用以單詞為單位,計算長度,對英法雙語的加拿大漢莎(Canadian?Hansard)語料庫中較易處理的約90%的部分進行了自動對齊,準確率達到99.4%(Brown,Lai&Mercer,1991)。
(二)基于詞匯的方法認為單詞和其譯文應該是同現的,其分布有相關性。這方面的工作以Kay和Roscheisen的算法為代表。Kay等人采用了松散范例(Relaxation?Paradigm)來進行對齊(Kay&Roscheisent1993:121-142)。他們用少量的英、德句子對這種方法作了示例,但未提供準確率。Chen提出利用翻譯模型進行雙語句子對齊的方法,認為最佳句子對齊序列就是在給定的翻譯模型下產生該雙語語料概率最大的句子對齊狀態(Chen1993)。
(三)混合法將長度與詞匯線索相結合,先利用詞匯信息對齊語料的一部分,無法對齊部分再用長度關系對齊。Wu用此方法對齊了相當部分漢英雙語的香港(Hong?Kong?Hansard)漢莎語料庫,準確率達到92.1%(王建新,2005:121-122)。
(四)基于雙語詞典的方法,把源語言文本看成單詞的序列作為橫軸,橫軸上的每個點對應一個單詞;同樣以目標語言文本作為縱軸。用平面上的一個點來表示源語言文本中某個詞和目標語言文本中的某個詞對譯。但只有這兩個詞分屬于一對對齊的句子,它們才可能對齊。
從目前句級對齊技術來看,現有的技術存在以下不足:
第一種方法(基于句子長度)適應范圍大多局限在語源相近、語系相同的兩種語言之間(如英語與法語),而對于英漢語這樣差異非常大的語言來說,則很難實現。
第二種方法(基于詞匯信息)最大的問題就是搜索空間比較大,獲得詞匯對等信息的代價比較高,從而花費的時間太長。再加之一詞多義現象的存在,使得對應信息的搜索變得更加復雜而最終效果不佳。
第三種方法(基于長度與詞匯)適應范圍大多局限在語源相近、時間長。
第四種方法(基于雙語詞典)詞匯對齊占用的時間太大。
發明內容
本發明需要解決的技術問題是如何更快、更好地實現雙語句級層面上的對齊。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福建工程學院,未經福建工程學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310604055.9/2.html,轉載請聲明來源鉆瓜專利網。





