[發明專利]語言分析裝置、語言分析方法和語言分析程序有效
| 申請號: | 201080014350.3 | 申請日: | 2010-03-23 |
| 公開(公告)號: | CN102369524A | 公開(公告)日: | 2012-03-07 |
| 發明(設計)人: | 安藤真一;定政邦彥 | 申請(專利權)人: | 日本電氣株式會社 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 中科專利商標代理有限責任公司 11021 | 代理人: | 王波波 |
| 地址: | 日本*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語言 分析 裝置 方法 程序 | ||
技術領域
本發明涉及通過對自然語言進行語法分析來執行語言分析的方法。更具體地,本發明涉及語言分析裝置、語言分析方法和語言分析程序,在將長句子劃分為較短的句子時高效地執行語言分析過程。
背景技術
典型地,通過首先將輸入字符串劃分為句子,然后對這些句子中的每個句子執行分析過程,來執行基于語法分析的語言分析。然而,當分析極長的句子(如經常在專利申請的說明書中看到的句子)時,基于逐句的簡單分析過程可能會遇到某些問題。
典型地,語言分析裝置(如,用于語法分析的語言分析裝置)通過將輸入字符串劃分為句子,然后研究每個句子中包含的每個單詞對之間的關系,來執行分析過程。這意味著,所要考慮的單詞對的數目隨輸入句子長度的增加成指數增長。
如果要分析極長的句子,必須計算巨量的單詞對。這將導致各種問題,包括:分析所需的較長的分析時間和大量的存儲容量。
此外,可能的解釋方式的數目隨所要考慮的單詞對的數目的增加而增加。這進而提高了分析差錯的可能。為避免如此,已經提出了各種方法:在執行分析過程之前,如果輸入的句子過長,對輸入的句子進行劃分。
例如,在專利文獻1中,公開了一種方法,其中,如果機器翻譯過程所花的時間大于預定時間,應用之前給定的劃分規則將輸入的句子劃分為較小的單元,并對每個單元執行機器翻譯過程。
專利文獻2中提出的方法與適應性單詞計數相關聯地存儲劃分規則,并按照適應性單詞計數遞減的順序依次應用劃分規則,使得輸入的句子能夠被劃分為更合適的單元。
專利文獻1:日本專利待審公開No.61-255468
專利文獻2:專利號003173514
以下,將描述對輸入的句子進行劃分以執行基于語法分析的語言分析的上述方法存在的問題。
第一個問題是,當給定了分析過程中可接受的最大輸入長度(以下稱“最大輸入長度”)時,無法根據這樣的最大輸入長度將長句子劃分為適當長度的處理單元。
劃分規則大致分為兩類。一類劃分規則關注提供相對寬松的中斷的語言表述,另一類關注提供相對細致的中斷的語言表述。一般而言,前一類劃分規則允許分析得到正確地執行,即使不予改變地(即,在通過應用前一類劃分規則獲得的劃分點處將句子劃分后不作任何調整)對每個劃分單元執行分析過程。然而,該規則關注于相對稀有的特定語言表述。由于可能未必從所有輸入的句子中獲得劃分點,這可能是存在問題的,并且當實際獲得劃分點時,每個得到的劃分單元可能不夠短。
另一方面,后一類劃分規則通過關注于相對常用的語言表述來獲得劃分點。因此,該類劃分規則允許從相對大量的句子獲得劃分點。此外,得到的劃分單元可能足夠短。然而,由于各個劃分單元可能變得過短以至于無法對每個劃分單元執行正確的分析,這將引起分析準確度常常降低的問題。
專利文獻2中公開的劃分方法試圖通過與適應性單詞計數相關聯地存儲劃分規則,并按照適應性單詞計數遞減的順序依次應用劃分規則,來解決上述問題。然而,該方法也存在分析準確度降低的問題。一個原因在于,難以針對劃分規則設置合適的適應性單詞計數。另一個原因在于,當達到需要應用具有較小適應性單詞計數的劃分規則的階段時,得到的劃分單元變得過短以至于無法確保正確分析。
(本發明的目的)
本發明的目的在于,提供語言分析裝置和語言分析方法,根據分析過程中可接受的最大輸入長度將長句子劃分為合適長度的處理單元。
發明內容
根據本發明的第一示例方面,一種語言分析裝置包括:
劃分規則,根據在應用時引起分析準確度問題的風險程度,每種劃分規則被分類至一種等級;
劃分點候選產生單元,當輸入了長度大于預定的最大輸入長度的字符串時,通過按照引起問題的風險等級遞增的順序逐一依次應用所述劃分規則,來產生針對輸入字符串的劃分點候選;
劃分點調整單元,當通過在劃分點候選產生單元所產生的所述劃分點候選處將所述字符串劃分而獲得的劃分單元候選的長度小于所述最大輸入長度時,從通過應用相同等級的劃分規則同時確保每個劃分單元的長度不大于所述最大輸入長度而獲得的劃分點候選中,選擇劃分點的組合;以及
劃分單元,在所述劃分點調整單元所確定的劃分點處,將輸入字符串劃分。
根據本發明的第二示例方面,一種語言分析方法包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于日本電氣株式會社,未經日本電氣株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201080014350.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于多重成像掃描儀的曝光控制
- 下一篇:半導體結構的形成方法





