[發明專利]語言實體關系分析方法和一種機器翻譯裝置和方法有效
| 申請號: | 201310649137.5 | 申請日: | 2013-12-06 |
| 公開(公告)號: | CN103631770A | 公開(公告)日: | 2014-03-12 |
| 發明(設計)人: | 劉建勇;董亦農;尹德春 | 申請(專利權)人: | 劉建勇;董亦農;尹德春 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/28 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100070 北京市豐臺區科*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語言 實體 關系 分析 方法 一種 機器翻譯 裝置 | ||
技術領域
????本發明涉及自然語言處理領域,更具體涉及語言實體關系分析方法和一種機器翻譯裝置和方法,用于自然語言處理以及機器翻譯系統。
背景技術
????對諸如互聯網數據的開放數據源進行高質量的處理,以及人們對不同語言文明的迫切的了解需求,使得自然語言處理以及機器翻譯幾十年來一直處于語言智能研究的核心。
????目前,規則體系和統計體系是自然語言處理和機器翻譯的主流技術方案。
????規則體系中的規則有1萬-10萬多條;模板性規則幾萬或者幾十萬條。解析執行體系的步驟相對簡單。采用1-best,7-best,30-best等折中方案;無法得到全部解;規則調度中出現“現場過早收斂”,后續規則不響應;很難書寫和維護具有復雜上下文的規則;系統在分詞階段、句法分析等階段都存在誤差,累積誤差比較嚴重;在后期,添加新的規則變得異常困難。語言整體覆蓋率不高,但某些領域中可以暫時實用;規則體系試圖通過海量的規則以及模板來解決組合爆炸問題,但工程難度大,以及系統架構自身的問題,很難有較高性能的表現。
???統計體系中,語料對齊本質上可以抽象為規則調度。如果統一歸納后,實際中人工調整的規則調度總數量是比較少的;對復雜語料,比如專利語料,無法提供有效解決方案;容易陷入詞匯相關的問題,語料橫向擴展嚴重,語料有效性降低。一些基于類似短語片段以及短語碎片的對齊,完全打亂了句子的結構;語料數目上升到一定層次后,因為它本身的調度邏輯有限,系統性能就會長期處于一定水平的徘徊狀態。語料數目超過千萬后,語料自身的誤差已經開始影響系統的后續發展。統計體系試圖通過統計海量對齊語料來覆蓋組合爆炸的語言現象,需要的語料極其龐大;然而,人工語料對齊的邏輯調度能力有限,使得對語言邏輯的覆蓋率不高,所以,目前性能較低。
????早期語義體系,雖然體會到規則體系和統計體系的較明顯的問題,但早期設計的語義層次其實也并沒抓住組合爆炸這個核心問題;一般而言,這類體系,一般都采取一個“選擇主動詞”階段,而這個階段的誤差也是影響很大的;其中,有些此類方案將“產生式規則”模擬性地寫在程序模塊中,也并沒在整體上如何規劃解決“組合爆炸”問題;另外,這個體系,往往設計非常復雜的知識體系,對知識的客觀性和可計算性缺乏整體性的考慮,從而容易受到知識庫復雜性的困擾。
???在上面這些系統中,也都有自己的語言邏輯架構,而這些語言邏輯架構是通過海量規則或者海量語料被動體現出來的,并非主動去建立,最終得到的效果都是整體語言邏輯框架的一個子集。同時因為計算的復雜性,無法獲得全解,所以都沒有解決語言的核心問題,即“組合爆炸”問題。?????????
發明內容
???由于規則體系、統計體系或者早期語義體系,都沒有重點解決語言的核心問題,即“組合爆炸”問題,反而長期深深受“組合爆炸”的困擾,使得語言處理效果一直無法提高。本發明提出的語言實體關系分析方法,在程序中,把握全部的“語言邏輯點”,充分利用“組合爆炸”,建立起完善的“語言邏輯框架”,也建立了完備的權值體系,基本上解決了語言的核心問題。
一種語言實體關系分析方法,其特征在于包括以下步驟:
(1):??對輸入的語句進行篇章、段落、大句分割,進行步驟(2);然后,在段落、大句范圍內,進行缺省指代等知識計算;
(2):?對大句分割成小句,進行步驟(3);
(3):?小句中的內嵌處理調用步驟(2);內嵌處理完,進行步驟(4);
內嵌說明,如語句:“我知道這個方法(采用A方案解決問題);”語串“(采用A方案解決問題)”就是小句中的內嵌,內嵌可以包含多個大句或者小句;
(4):?對小句進行分詞,如果有歧義,那么形成有限數目的子句,并對每個子句計算分詞歧義權值,對每個子句進行預處理(數字,數量短語,特殊組合短語,時間短語,超長子句處理),對每個子句進行步驟(5);在此層次進行相應的權值計算,選出最優小句;
(5):?對子句讀取語義知識庫信息,對動詞、可作模擬動詞處理的形容詞和數量短語、介詞、可帶子句的連詞等建立分析啟動結構;進行步驟(6);
(6):?對子句語串進行單句,并聯句,形容詞句,數量短語句,連動句,單實體句等分析;對于那些具有句子模式的句子,都能將其分解成為單句、多個單句,進行步驟(7);對于單實體句,進行步驟(10);?在此層次進行相應的權值計算,選出最優分析結果;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于劉建勇;董亦農;尹德春,未經劉建勇;董亦農;尹德春許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310649137.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種步進加熱爐爐底磚座結構
- 下一篇:弧形攪拌葉混合機





