[發明專利]一種雙語無監督句法分析方法及系統有效
| 申請號: | 201410394850.4 | 申請日: | 2014-08-12 |
| 公開(公告)號: | CN104281564B | 公開(公告)日: | 2017-08-08 |
| 發明(設計)人: | 劉凱;姜文斌;劉群 | 申請(專利權)人: | 中國科學院計算技術研究所;橙譯中科信息技術(北京)有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京律誠同業知識產權代理有限公司11006 | 代理人: | 祁建國,梁揮 |
| 地址: | 100190 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 雙語 監督 句法 分析 方法 系統 | ||
1.一種雙語無監督句法分析方法,其特征在于,包括以下步驟:
步驟1,在雙語語料源端和目標端分別建立隨機句法分析樹庫;
步驟2,在該隨機句法分析樹庫上通過計算單語無監督句法分析樹的概率來單獨訓練單語無監督句法分析模型;
步驟3,通過計算松弛同構相似度和雙語句法分析算法對該單語無監督句法分析模型進行雙語句法分析,得到最為滿足松弛同構雙語句法分析目標的雙語句法分析樹庫,并用以替換該隨機句法分析樹庫;
步驟4,重復上述步驟1-步驟3,直至該單語無監督句法分析模型收斂;
其中在該步驟3中,通過雙語句法分析方法獲得最為滿足松弛同構雙語句法分析目標的雙語句法分析樹庫的句法分析目標為:
其中E、F為目標端和源端的單語句子集合,A為雙語詞匯對齊,TE、TF為對應單語句法分析樹集合,二者并稱雙語句法分析樹庫,其中式子第一部分對應著松弛同構相似度,而第二部分對應著兩個單語無監督句法分析模型,其中該松弛同構相似度定義為:
其中Te、Tf為句子e和f單語句法分析樹,為TE、TF的子集,為句子e和f上對應的詞匯對齊關系,Se為單語句法分析樹Te上的跨度集合Sf為單語句法分析樹Tf上的跨度集合,S'e為Tf在當前句子e上的對齊跨度信息:S'e={(i,j)|vef(i,j)∈Sf},Sf'同理,其中:
其中amn表示句子e中的位置m的詞匯與句子f中的位置在n的詞匯存在一條對齊連線,為空集,為不屬于的符號,而vef(i,j)代表著在句子e中的跨度(i,j)在句子f中的對齊跨度為vef(i,j),vfe(i,j)與其相反。
2.如權利要求1所述的雙語無監督句法分析方法,其特征在于,在該步驟1中,該雙語語料為經過自動詞匯對齊的雙語平行句對。
3.如權利要求1所述的雙語無監督句法分析方法,其特征在于,在該步驟2中,一棵單語無監督句法分析樹的概率為:
其中為該單語無監督句法分析樹中的一條句法規則,e表示該句法規則對應的句子,i和j為該句法規則對應覆蓋的跨度,k表示該句法規則的中間分叉的坐標,為該規則對應的概率,Te代表一顆在句子e上的完整的單語無監督句法分析樹,并且:
其中y為規則的在句法分析過程中的分類的類別,y=+時,該句法規則在當前條件下應當被推導,而y=-時,該句法規則不宜被推導,λn為對應特征函數的特征權重,其中為歸一化常數:
其中特征函數為特征函數,其下標n代表不同的特征函數。
4.如權利要求1所述的雙語無監督句法分析方法,其特征在于,在該步驟3中,利用建立的兩個單語無監督句法分模型,在雙語句法分析算法中獲取新的句法分析樹庫,用于替換步驟1或步驟3中的句法分析樹庫,用以下一輪迭代訓練。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所;橙譯中科信息技術(北京)有限公司,未經中國科學院計算技術研究所;橙譯中科信息技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410394850.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:液控換向球閥及工作方法
- 下一篇:Rene41合金的環形鍛件成形方法





