[發明專利]使用比較語料庫的命名實體直譯無效
| 申請號: | 200980142526.0 | 申請日: | 2009-10-20 |
| 公開(公告)號: | CN102187335A | 公開(公告)日: | 2011-09-14 |
| 發明(設計)人: | R·U·烏;S·克里西南;A·庫馬蘭 | 申請(專利權)人: | 微軟公司 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28;G06F17/21 |
| 代理公司: | 上海專利商標事務所有限公司 31100 | 代理人: | 陳斌 |
| 地址: | 美國華*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 使用 比較 語料庫 命名 實體 直譯 | ||
背景
此背景旨在提供本專利申請的基本上下文,而不旨在描述要解決的具體問題。
命名實體構成了跨語言信息檢索(CLIR)的查詢術語中的很大一部分,并且對跨語言信息檢索系統的性能有著實質的影響。在機器翻譯(MT)中,許多詞匯表外的單詞是命名實體。然后,雙語詞典缺乏對命名實體的充分覆蓋,且機器直譯系統經常產生不正確的直譯。
概述
提供本概述以便以簡化形式介紹將在以下的詳細描述中進一步描述的一些概念。本概述并不旨在標識出所要求保護的主題的關鍵特征或必要特征,也不旨在用于限定所要求保護的主題的范圍。
公開了一種用于挖掘多語言命名實體直譯的方法和系統。可以審閱第一語言的文檔并可以審閱第二語言的附加文檔。可以確定該附加文檔是否充分相似于該文檔。如果該附加文檔被確定為是充分相似于該文檔,則可選擇該文檔中的命名實體。本方法可通過將命名實體與附加文檔中的單詞進行比較并確定該命名實體與該單詞是否充分相似來搜索相似的命名實體。如果定位了與該命名實體相似的單詞,則該命名實體和相似的命名實體可被存儲為命名實體直譯。
附圖簡述
圖1是便攜式計算設備的示圖;
圖2是挖掘多語言命名實體直譯的方法的示圖;
圖3是比較語料庫的示圖。
詳細描述
盡管以下正文闡明眾多不同實施例的詳細描述,但是應當理解,該描述的法律范圍由本專利的結尾所提出的權利要求書的言辭來限定。該詳細描述應被解釋為僅是示例性的,且不描述每一可能的實施例,因為描述每一可能的實施例即使不是不可能的也是不切實際的。可使用現有技術或在本專利的提交日之后開發的技術來實現眾多替換實施例,而這仍落入權利要求書的范圍之內。
還應該理解,在本專利中,除非使用句子“如此處所用,術語‘______’在此被定義為意指……”或者相似句子來明確地定義一個術語,否則不管是明確地還是含蓄地,沒有限制該術語意義超出其平常或普通含義的意圖,并且,這一術語不應該被解釋為被限制在基于本專利的任何部分中(除了權利要求書的語言之外)所做的任何陳述的范圍中。就本專利的結尾處的權利要求書中所述的任何術語在本專利中以與單獨含義相一致的方式來引用而言,這僅僅是為簡明起見而如此做的,使得不使讀者感到混淆,且這類權利要求術語并不旨在隱含地或以其它方式限于該單獨含義。最后,除非一權利要求要素是通過敘述單詞“裝置”和功能而沒有敘述任何結構來定義的,否則任何權利要求要素的范圍并不旨在基于35U.S.C.§112、第6段的應用來解釋。
圖1示出了可用于顯示和提供本說明書所描述的用戶界面的合適的計算系統環境100的示例。應當注意,計算系統環境100僅為合適的計算環境的一個示例,并不旨在對本權利要求的方法和裝置的使用范圍或功能提出任何限制。也不應該將計算環境100解釋為對示例性操作環境100中示出的任一組件或其組合有任何依賴性或要求。
參考圖1,用于實現所要求保護的方法和裝置的各個框的示例性系統包括計算機110形式的通用計算設備。計算機110的各組件可包括但不限于,處理單元120、系統存儲器130、以及將包括系統存儲器在內的各系統組件耦合到處理單元120的系統總線121。
計算機110可經由局域網(LAN)171和/或經由調制解調器172或其他網絡接口170的廣域網(WAN)173,使用到諸如遠程計算機180之類的一個或多個遠程計算機的邏輯連接來在聯網環境中操作。
計算機110通常包括各種計算機可讀介質,計算機可讀介質可以是可由計算機110訪問的任何可用介質,并且包括易失性和非易失性介質、可移動和不可移動介質兩者。系統存儲器130包括易失性和/或非易失性存儲器形式的計算機存儲介質,如只讀存儲器(ROM)131和隨機存取存儲器(RAM)132。ROM可包括基本輸入/輸出系統133(BIOS)。RAM?132通常包含數據和/或程序模塊,該數據和/或程序模塊包括操作系統134、應用程序135、其他程序模塊136和程序數據137。計算機110也可包括其他可移動/不可移動、易失性/非易失性計算機存儲介質,諸如硬盤驅動器141、從磁盤152讀取或向磁盤152寫入的磁盤驅動器151、從光盤156讀取或向光盤156寫入的光盤驅動器155。硬盤驅動器141、151和155可經由接口140、150與系統總線121接口。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于微軟公司,未經微軟公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200980142526.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:發光模塊、發光模塊的制造方法及燈具單元
- 下一篇:設備使用輔助裝置及系統





