[發明專利]倒排參考句型語言分析方法在審
| 申請號: | 200810005364.3 | 申請日: | 2008-01-28 |
| 公開(公告)號: | CN101499056A | 公開(公告)日: | 2009-08-05 |
| 發明(設計)人: | 徐文新 | 申請(專利權)人: | 徐文新 |
| 主分類號: | G06F17/20 | 分類號: | G06F17/20 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 330031江西省南昌市紅谷灘*** | 國省代碼: | 江西;36 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 參考 句型 語言 分析 方法 | ||
1.一種語言分析方法,其特征在于,包括以下步驟:
a.建立某種語言的基本句型(含詞語搭配、短語、詞組、詞語,下同)S的數據庫,給出處理信息;給出各基本句型的字符元數k、或給出剔除重復后的字符元數h、或同時給出k和h、或給出k和字符元重復次數g、或給出h和g、或給出k和h和g;給出j;句型或j的地址為d,或給出句型編號n;
b.列出該語言此種應用的所有字符元Pi(i=1、2、3…w),對每個字符元Pi,均列出包含該字符元Pi的所有基本句型或j的地址d,或句型編號n,得出倒排表;
c.設需要分析的句子為T,用T的字符元Pr(i=1、2、3…m),根據倒排表Pr的d,或n,對基本句型數據庫相應記錄的j進行累計標示,得到各基本句型S的j值;
d.通過比較各句型S的j與k、h或者以及g的大小,篩選出T包含、可能包含其全部字符元、部分字符元的S,對S與T的字符元進行比較,剔除不合要求的S,一般優先選擇k或h或j值大的句型作為基礎句型,參照這些句型對T進行分析處理。
2.按照權利要求1所述的方法,其特征在于:累計標示后,如果j值能準確反映S與T的字符元交集的大小,將j=k的句型S作為參考句型,將0<j<k的句型S作為容錯句型,將j=m的句型S作為可能的引文,從這些句型中擇優選出基礎句型,分析處理T;如果累計標示后,j值不能準確反映S與T的字符元交集的大小,適當放寬查詢條件得到R1,從R1中擇優選出基礎句型,分析處理T。
3.按照權利要求1所述的方法,其特征在于:語音輸入中,累計標示,剔除冗雜、結構不合的記錄后,優先選擇k或h或j值大的句型作為基礎句型,但綜合考慮頻率、語法、文體、系聯、關聯信息多種因素及各因素的權重做選擇。
4.按照權利要求1所述的方法,其特征在于:用一個數據Ln的bit標記S的文體傾向,分析生成某語句的S的Ln,得到該語句的文體傾向Ls;總計一節文字的S的Ln或語句的Ls,分析得出該段文字的文體傾向Lp;如果滿足Ls?or?Lp=Lp或其等價式,則該句的文體傾向符合該節的文體傾向,在備選語句中可給予優先保留;生成后續語句時,優先選擇Ln接近Lp的基礎句型;機器翻譯中,同時給出原始語言S的Ln與目標語言S的Ln,利用Ln分析當前文件的Lp,用Ls、Ln同Lp做比較,評價已生成的備選語句、輔助后續語句生成。
5.按照權利要求1所述的方法,其特征在于:將引文資料進行組織存貯,再將引文資料的篇名、首句、精華之句S收入基本句型庫,并給出引文信息;當T與某句型S、或按T生成的語句與S的對應信息相同或相近時,自動或接受用戶提示,根據引文信息,將前后文讀出,供用戶確認。
6.按照權利要求1所述的方法,其特征在于:給出基本句型的關聯詞、關聯信息,處理概念之間的同義近義關系、并列排斥關系、包含關系、屬性關系,或用于處理語法關系、語言的形態變化,輔助對T的分析處理。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于徐文新,未經徐文新許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810005364.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:揚聲器組件
- 下一篇:太陽能野外多功能器具





