[發明專利]基于上下文的首字母縮略詞和縮寫詞的歧義消除有效
| 申請號: | 201180056876.2 | 申請日: | 2011-09-23 |
| 公開(公告)號: | CN103229137A | 公開(公告)日: | 2013-07-31 |
| 發明(設計)人: | B·K·博古拉夫;J·舒-卡羅爾;D·A·弗魯茨;A·T·萊瓦斯;J·M·普拉格爾 | 申請(專利權)人: | 國際商業機器公司 |
| 主分類號: | G06F7/00 | 分類號: | G06F7/00 |
| 代理公司: | 北京市中咨律師事務所 11247 | 代理人: | 張亞非;于靜 |
| 地址: | 美國*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 上下文 首字母 縮略 縮寫 歧義 消除 | ||
本申請要求享有2010年9月29日提交的美國臨時專利申請號61/387,562的優先權,其全部內容通過引用結合于此。
技術領域
本公開一般涉及計算機、計算機應用、人工智能和自然語言處理,且更具體而言涉及首字母縮略詞和/或縮寫詞的歧義消除。
背景技術
首字母縮略詞和縮寫詞是單詞或常見短語的縮寫形式??s寫詞是用于代表整個單詞或短語的縮寫或縮略形式(例如,Dr表示“Doctor”或“Drive”,等)。首字母縮略詞是由其他單詞的起始字母構成的縮寫詞且有時候發音為單詞(例如IBM)。
對于首字母縮略詞和縮寫詞兩者都存在的理解目標含義的問題,在于它們具有多于一個并且有時候具有很多個可能的擴展。這帶來了在實際想要的擴展方面的歧義。上下文是人類讀者理解擴展的目標含義的背景。例如,首字母CIA具有很多可能的擴展,其中兩個眾所周知的擴展是Central?Intelligence?Agency(中央情報局)和Culinary?Institute?of?America(美國烹飪學院)。
在下面的句子中:
“The?former?CIA?officer?accused?of?revving?an?electric?drill?near?the?head?of?imprisoned?terror?suspect?has?returned?to?U.S.intelligence?as?as?contractor”(被指責為靠近關押的恐怖嫌疑人頭部加速旋轉電鉆的前CIA官員已作為承包人返回美國情報部門),人類讀者將使用用于消除歧義的周圍單詞的上下文把詞語CIA的目標擴展識別為“Central?Intelligence?Agency”。這里,詞語“imprisoned”(關押的)、“terror”(恐怖)、“suspect”(嫌疑人)、“intelligence”(情報部門)和“officer”(官員)與該歧義消除相關。
在下面的句子中:
“Two?Certified?Master?Chefs?from?CIA?have?designed?and?tested?more?than100kitchen?essentials?that?meet?highest?processional?standards?in?gourmet?cuisine”(來自CIA的兩個注冊頂級廚師設計和測試了滿足美食烹調最高標準的超過100個廚房必備工具),人類讀者將使用用于消除歧義的周圍單詞的上下文把詞語CIA的目標擴展識別為“Culinary?Institute?of?America”(美國烹飪學院)。這里,術語“Master?Chef”(頂級廚師)、“kitchen”(廚房)、“gourmet”(美食)和“cuisine”(烹調)與該歧義消除相關。
歧義的另一維度是,文本中的標記(token)是要擴展的縮寫詞還是合法的單詞的問題,該單詞正好具有與縮寫詞一樣的字母。例如,“WAS”可以是表示“be”的過去式的單詞,或者“Websphere?Application?Services”的縮寫。顯然,將“WAS”當作縮寫詞并對它進行合適的擴展再次地依賴于上下文。
對人類來說,歧義消除的任務經常是簡單、直接和自然的。相反,自動化計算機系統在自然語言處理(NLP)的過程中提取首字母縮略詞和縮寫詞的目標含義有很多的難度。當在開放和廣泛的領域中而不是在論文的狹窄領域中執行NLP任務時該問題尤其嚴重,因為備選解釋的數量很大。
發明內容
提供了一種用于基于上下文的首字母縮略詞和/或縮寫詞的歧義消除的方法和系統。在一方面,該方法包括確定目標縮寫詞以及出現在該目標縮寫詞的上下文中的一個或多個關鍵詞。目標縮寫詞表示一個或多個單詞的縮寫形式。該方法還可以包括生成上下文搜索查詢,該查詢包含目標縮寫詞以及在縮寫詞上下文中出現的一個或多個關鍵詞。該方法還可以包括通過調用上下文搜索查詢來搜索用于目標縮寫詞的一個或多個擴展的偽文檔索引。偽文檔索引包含一個或多個偽文檔的索引、關聯的一個或多個縮寫詞、以及關聯的上下文關鍵詞。該方法還可以包括基于對偽文檔索引的搜索來返回與目標縮寫詞關聯的一個或多個偽文檔。該方法還可以包括基于返回的一個或多個目標偽文檔來提供與目標縮寫詞關聯的一個或多個擴展。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國際商業機器公司,未經國際商業機器公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201180056876.2/2.html,轉載請聲明來源鉆瓜專利網。





