[發明專利]一種基于自引導方式的領域自適應句子對齊系統有效
| 申請號: | 201310659722.3 | 申請日: | 2013-12-09 |
| 公開(公告)號: | CN103678565B | 公開(公告)日: | 2017-02-15 |
| 發明(設計)人: | 程工;劉春陽;龐琳;張旭;巢文涵;黃智;李舟軍 | 申請(專利權)人: | 國家計算機網絡與信息安全管理中心;北京航空航天大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/28 |
| 代理公司: | 北京科迪生專利代理有限責任公司11251 | 代理人: | 成金玉,孟卜娟 |
| 地址: | 100029*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 引導 方式 領域 自適應 句子 對齊 系統 | ||
技術領域
本發明涉及一種基于自引導(bootstrap)方式的領域自適應句子對齊系統,屬于自然語言處理的文本處理領域,自引導方式是指利用算法結果反饋算法條件,通過多次迭代達到最優。
背景技術
在自然語言處理領域,高質量平行語料的獲取是一個非常重要的問題,對于機器翻譯、跨語言檢索等應用具有重要意義。互聯網是一個很好的資源庫,是獲取語料很好的來源。不過,由于互聯網對信息存儲和組織方式的特殊性,若要想較好的利用文本信息,還需要對網頁信息進行提取和相應的預處理工作。能否獲得大規模經過良好預處理并同時具有較高對齊質量的句對,是影響機器翻譯系統質量的關鍵因素。
一方面,機器翻譯系統對經過處理后的平行語料和對齊句對有著比較迫切的需求;另一方面,在預處理方面需要做的操作較為繁瑣,這些工作由人工完成過于耗費時間和精力;且目前的句子對齊存在質量不高、不具有領域針對性的問題。
發明內容
本發明技術解決的主要問題:克服現有技術的不足,提供一種基于自引導方式的領域自適應句子對齊系統,提高了句子對齊質量,具有領域適應性強的優點。
本發明的技術解決方案:1、一種基于自引導方式的領域自適應句子對齊系統,其特征在于包括:網頁處理模塊,中文文本處理模塊,英文文本處理模塊和雙語文處理模塊;其中:
網頁處理模塊,對網頁形式的語料進行解析,從中提取出有用的文本信息,對于中文文本則送至中文文本處理模塊,對于英文文本信息則送至英文文本處理模塊;
中文文本處理模塊,結合中文的特點,對中文文本信息進行相關預處理工作,包括編碼轉換、分句、分詞,詞性標注;
英文文本處理模塊,結合英文的特點,對英文文本進行預處理工作,主要包括詞根化處理,詞性標注,命名實體識別;
雙語處理模塊,對中文文本處理模塊和英文文本處理模塊后的中英文信息,采用自引導方式算法實現雙語的句子級對齊和領域互譯詞對的提取,其中該模塊包含兩個子模塊:融合多特征的句子對齊子模塊,實現句子對齊;基于詞對共現信息和詞頻特性的詞對提取子模塊,實現領域詞對的提取;
所述自引導方式的自適應句子對齊算法實現如下:
(1)讀入中文文本處理模塊和英文文本處理模塊輸出的中英文文本;同時讀入互譯詞典,其中包含了互譯詞對集合;
(2)調用融合多特征的句子對齊子模塊,融合互譯詞對、候選句對中詞語的詞性相關信息、互譯詞的重要程度、候選句對的長度關系,候選句對中特殊標點符號特征,形成句子對齊結果;
(3)調用詞對提取子模塊,基于詞對詞頻特性和共現信息,對步驟(2)生成的句對齊結果進行處理,提取出文本中的互譯詞對,并將其加入到互譯詞典中;
(4)循環步驟(2)-(3),直至達到收斂狀態,即句子對齊集合和互譯詞典都沒有變化。
所述融合多特征的句子對齊子模塊的具體過程為:(1)輸入待句子對齊的雙語文本的句子集合;(2)提取候選句子對;(3)提取候選句子對中的文本特征,包括:詞性特征、特殊標點符號特征和長度特征等;(4)融合多種特征對候選句對的相似度進行打分;(5)利用動態規劃算法尋找最佳雙語句子集合的最佳對齊序列,作為最終的句子對齊結果。
所述基于詞對詞頻特性和共現信息的詞對提取子模塊的具體過程為:
(1)輸入句對集合,提取候選互譯詞對;
(2)判斷候選互譯詞對的出現頻率是否大于最低閾值,刪除出現頻率過低的候選互譯詞對;
(3)計算互譯詞對在兩種語言文本中出現頻率差,其計算公式為:其中freq1和freq2為兩個待判斷詞語在各自語言文本中的出現頻率,刪除頻率差大于某個閾值的候選詞對;
(4)基于詞對的篇章級特征和上下文,計算候選詞對在整個篇章、句對以及其周圍存在互譯詞的個數等特征,根據這些特征對候選詞對進行排序,輸出最好的N個互譯候選詞,(一般取N=3~5)認為它們是互譯詞對。
本發明與現有技術相比的優點和創新點在于:
(1)本發明通過能夠比較方便的完成一般預處理階段要求完成的大多數常見操作,功能覆蓋全面,通過較為友好的交互界面,操作方便簡潔,自由度較高。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國家計算機網絡與信息安全管理中心;北京航空航天大學,未經國家計算機網絡與信息安全管理中心;北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310659722.3/2.html,轉載請聲明來源鉆瓜專利網。





