[發(fā)明專利]用于計算機執(zhí)行語言學分析的基于集解析在審
| 申請?zhí)枺?/td> | 201680048248.2 | 申請日: | 2016-07-29 |
| 公開(公告)號: | CN108351869A | 公開(公告)日: | 2018-07-31 |
| 發(fā)明(設(shè)計)人: | 約翰·鮑爾 | 申請(專利權(quán))人: | PAT公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/28 |
| 代理公司: | 北京鴻德海業(yè)知識產(chǎn)權(quán)代理事務所(普通合伙) 11412 | 代理人: | 袁媛 |
| 地址: | 美國加利*** | 國省代碼: | 美國;US |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 匹配 語言學分析 短語 儲存 操作計算機 計算機編程 計算機執(zhí)行 交集 短語屬性 結(jié)果儲存 目標語言 匹配元素 合并 鏈路集 雙向性 中心詞 計算機系統(tǒng) 適配 填充 創(chuàng)建 副本 解析 復制 遷移 重復 發(fā)現(xiàn) | ||
本發(fā)明涉及語言學分析。特別地,本發(fā)明涉及一種操作計算機以執(zhí)行語言學分析的方法。另一方面,本發(fā)明涉及一種執(zhí)行該方法的計算機系統(tǒng),又一方面,本發(fā)明涉及用于對計算機編程以執(zhí)行該方法的軟件。所述方法包括以下步驟:接收元素列表,將其儲存在列表集中,之后重復匹配儲存在所述集的元素中的模式,以及將結(jié)果儲存在所述列表中,直到?jīng)]有新的匹配被發(fā)現(xiàn)。每個匹配包括以下步驟:創(chuàng)建新合并集(重述)以將短語的完整表達儲存為新元素,遷移短語中指定的中心詞元素、所有短語屬性,儲存序列中匹配的元素,以及復制匹配元素的標記副本。創(chuàng)建并填充合并集后,執(zhí)行實現(xiàn)WSD的鏈路集交集。可以選擇得到的元素以識別最佳適配,實現(xiàn)有效WBI和PBI。元素的雙向性使得短語可以生成為任意目標語言。
發(fā)明人:John Ball
相關(guān)申請的交叉引用
本申請要求2015年7月30日公開的名為“Set-based Parsing for LinguisticAnalysis(用于語言學分析的基于集解析)”的美國臨時申請序列號62/198,684的優(yōu)先權(quán),該申請整體以引用方式并入本文。本申請還要求2016年7月28日提交的美國申請序列號15/222,399的優(yōu)先權(quán),該申請整體以引用方式并入本文。
背景技術(shù)
技術(shù)領(lǐng)域
本發(fā)明涉及用于人類語言理解和生成的計算機執(zhí)行的語言學分析領(lǐng)域。更具體地,本發(fā)明涉及自然語言處理(NLP)、自然語言理解(NLU)、自動語音識別(ASR)、交互式語音應答(IVR)以及包括全自動高質(zhì)量機器翻譯(FAHQMT)在內(nèi)的衍生應用。更具體地,本發(fā)明涉及一種使用靈活的模式匹配技術(shù)在許多級別解析語言元素(匹配序列以指派上下文和結(jié)構(gòu))的方法,其中,屬性被分配給匹配模式以用于準確的后續(xù)匹配。特別地,本發(fā)明涉及一種操作計算機以執(zhí)行語言理解和生成的方法。另一方面,本發(fā)明涉及一種執(zhí)行該方法的計算機系統(tǒng),又一方面,本發(fā)明涉及用于對計算機編程以執(zhí)行該方法的軟件。
相關(guān)技術(shù)描述
如今,全世界的語言和方言有上千萬種。自計算機首次構(gòu)建以來,已經(jīng)多次嘗試將其編程以理解人類語言并提供它們之間的翻譯。
然而,一些領(lǐng)域成果有限,缺乏普遍成功。20世紀50年代以后制造的基于規(guī)則的系統(tǒng)現(xiàn)在大多已經(jīng)不受歡迎,在這些系統(tǒng)中,程序員和分析師試圖手動編碼識別正確結(jié)果所需要的所有可能規(guī)則。
目前大多數(shù)工作都依靠統(tǒng)計技術(shù)對發(fā)音和語言字符進行分類,用于單詞、語法及意義識別。“最有可能”的選擇會導致錯誤累積。
自20世紀50年代起,解析樹已經(jīng)用于追蹤和描述語法,但這些解析樹無法在語言之間很好地普及,也不能很好地處理不連續(xù)問題。
當今的ASR系統(tǒng)通常從音頻內(nèi)容到特征模型的轉(zhuǎn)換開始,在這種轉(zhuǎn)換中,特征試圖模仿人耳和聲學系統(tǒng)的能力。然后,將這些特征與儲存的音素模型匹配以識別單詞,與詞匯表中儲存的單詞模型和儲存的單詞序列模型匹配以識別短語、從句和句子。
利用上下文的系統(tǒng)經(jīng)常使用“詞袋”的概念來確定句子的含義。每個單詞都基于其與之前分析的語料庫的關(guān)系進行考慮,并基于概率確定意義。通過改變語料庫源,可以輕松改變意義。
目前,在相關(guān)領(lǐng)域的這一領(lǐng)域,還沒有系統(tǒng)產(chǎn)生可靠的、人類水平的準確性或能力。目前的觀點是,可能會在2029年左右,當擁有足夠的計算機處理能力時,達到人類水平的NLP能力。
發(fā)明內(nèi)容
本發(fā)明的一個實施例提供一種通過結(jié)合層級中的模式以識別復雜性的方法。2013年的美國專利No.US 8,600,736B2描述了一種語言分析方法。該分析從文本中的單詞列表開始:匹配方法創(chuàng)建表示最佳匹配結(jié)果的重述。
本發(fā)明的一個實施例將這種重述擴展為合并集(CS),即通過從匹配中嵌入相關(guān)細節(jié)合并之前匹配的模式,并根據(jù)需要貼上標簽的集。初始元素或合并集的匹配是等同的。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于PAT公司,未經(jīng)PAT公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201680048248.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:提供針對文檔的交互式內(nèi)容生成
- 下一篇:通用翻譯





