[發明專利]倒排參考句型語言分析方法在審

申請號：	200810005364.3	申請日：	2008-01-28
公開（公告）號：	CN101499056A	公開（公告）日：	2009-08-05
發明（設計）人：	徐文新	申請（專利權）人：	徐文新
主分類號：	G06F17/20	分類號：	G06F17/20
代理公司：	暫無信息	代理人：	暫無信息
地址：	330031江西省南昌市紅谷灘***	國省代碼：	江西;36
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	參考句型語言分析方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種語言分析方法，其特征在于，包括以下步驟：

a.建立某種語言的基本句型(含詞語搭配、短語、詞組、詞語，下同)S的數據庫，給出處理信息；給出各基本句型的字符元數k、或給出剔除重復后的字符元數h、或同時給出k和h、或給出k和字符元重復次數g、或給出h和g、或給出k和h和g；給出j；句型或j的地址為d，或給出句型編號n；

b.列出該語言此種應用的所有字符元P_i(i＝1、2、3…w)，對每個字符元P_i，均列出包含該字符元P_i的所有基本句型或j的地址d，或句型編號n，得出倒排表；

c.設需要分析的句子為T，用T的字符元P_r(i＝1、2、3…m)，根據倒排表P_r的d，或n，對基本句型數據庫相應記錄的j進行累計標示，得到各基本句型S的j值；

d.通過比較各句型S的j與k、h或者以及g的大小，篩選出T包含、可能包含其全部字符元、部分字符元的S，對S與T的字符元進行比較，剔除不合要求的S，一般優先選擇k或h或j值大的句型作為基礎句型，參照這些句型對T進行分析處理。

2.按照權利要求1所述的方法，其特征在于：累計標示后，如果j值能準確反映S與T的字符元交集的大小，將j＝k的句型S作為參考句型，將0<j<k的句型S作為容錯句型，將j＝m的句型S作為可能的引文，從這些句型中擇優選出基礎句型，分析處理T；如果累計標示后，j值不能準確反映S與T的字符元交集的大小，適當放寬查詢條件得到R₁，從R₁中擇優選出基礎句型，分析處理T。

3.按照權利要求1所述的方法，其特征在于：語音輸入中，累計標示，剔除冗雜、結構不合的記錄后，優先選擇k或h或j值大的句型作為基礎句型，但綜合考慮頻率、語法、文體、系聯、關聯信息多種因素及各因素的權重做選擇。

4.按照權利要求1所述的方法，其特征在于：用一個數據L_n的bit標記S的文體傾向，分析生成某語句的S的L_n，得到該語句的文體傾向L_s；總計一節文字的S的L_n或語句的L_s，分析得出該段文字的文體傾向L_p；如果滿足L_s?or?L_p＝L_p或其等價式，則該句的文體傾向符合該節的文體傾向，在備選語句中可給予優先保留；生成后續語句時，優先選擇L_n接近L_p的基礎句型；機器翻譯中，同時給出原始語言S的L_n與目標語言S的L_n，利用L_n分析當前文件的L_p，用L_s、L_n同L_p做比較，評價已生成的備選語句、輔助后續語句生成。