[發明專利]文本中數字和特殊符號串的文字符號化處理方法及系統有效
| 申請號: | 200610165633.3 | 申請日: | 2006-12-08 |
| 公開(公告)號: | CN101196881A | 公開(公告)日: | 2008-06-11 |
| 發明(設計)人: | 郭慶;片江伸之 | 申請(專利權)人: | 富士通株式會社 |
| 主分類號: | G06F17/28 | 分類號: | G06F17/28;G06F17/30 |
| 代理公司: | 北京三友知識產權代理有限公司 | 代理人: | 任默聞 |
| 地址: | 日本神奈*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 數字 特殊符號 文字 符號化 處理 方法 系統 | ||
技術領域
本發明涉及對自然語言文本中復雜形式的數字和特殊符號進行文字符號化的處理技術,具體的講是一種文本中數字和特殊符號串的文字符號化處理方法及系統。
背景技術
在自然語言文本中,數字和特殊符號(包括外來語符號,例如漢語中的英文字母)作為自然語言系統中的基本符號廣泛且大量地存在著。以漢語為例,在人民日報1998年的語料中,大約25%的句子中存在著數字或特殊符號。在信息處理領域中,許多與自然語言處理技術相關的應用如自然語言理解、機器翻譯、語音合成等,都需要能夠對自然語言文本中可能存在的數字、特殊符號串進行準確的理解,在理解的基礎上對其中的數字或特殊符號進行文字符號化處理,即將數字或特殊符號轉換為與其等價的文字。在語音合成系統中,在對數字或特殊符號進行文字符號化處理的基礎上,還要進行字轉音的處理,并根據數字、特殊符號串的結構加上適當的詞邊界或者更高一級的韻律詞邊界,從而使得語音合成的聲音更自然。因此,對于許多與自然語言處理技術相關的應用中,一個有效的數字、特殊符號文字符號化處理系統是必需的。
數字和特殊符號由于廣泛地存在于自然語言文本中,因此也形成了許多常用的固定格式。就數字而言,在不同的上下文語境中,或是在不同的習慣用法結構中,有兩種可能的讀法,一種是數值讀法,另外一種是電報讀法。以漢語為例,“130”用于描述數量例如“這臺高速打印機一分鐘可以打印130頁紙”時,讀作“一百三十”,而在“130醫院”或“130鉆井隊”這樣的語境中讀作“幺三零”。又如“70年”,作為獨立的語法單元,其本身就有歧義性,可以是“七零年”(表示1970年),也可以是“七十年”(表示時間段)。此時,往往需要在更廣、更深的層次例如段落、篇章上下文分析或者語義理解的基礎上來對其進行準確的文字符號化處理。
特殊符號的語用形式更是多種多樣,對于特殊符號的文字符號化,存在兩方面的問題。一方面是其用法的多樣性,另外一方面是由此帶來的可能的歧義性。以漢語為例,“-”、“/”和“:”是三個常用的符號。由于它們可以作為不同的語用手段出現在很多固定格式中,因此它們也是很難被計算機正確理解的。這些特殊符號經常是伴隨數字一起出現的,更進一步,有的時候這些特殊符號、數字中間會夾雜著漢字一起出現,它們組合在一起構成一個大的語法單元。例如:“2000元/月”,“16日-19日”,“3個月-6個月”,“波音-747”,“電話:65992238?65993388-1826、1828”等。特殊符號的歧義性也是必須要解決的問題之一,例如“:”在下面三句話中起著不同的語用作用,在例句1和例句3中“:”應該文字符號化為“比”,在例句2中應該文字符號化為“點”。
例句1:實行6∶2∶2的結構工資制
例句2:7月21日晚上19:30分
例句3:她擊敗對手的比分為6∶2、5∶7和7∶5
關于自然語言文本中復雜形式的數字和特殊符號進行文字符號化的處理存在多篇現有文獻,特將美國專利6,721,697(Duan;Lei;Franz;Alexander;Horiguchi;Keiko;April?13,2004,Method?and?system?for?reducing?lexicalambiguity);
美國專利6,266,642(Franz;Alexander?M.;Horiguchi;Keiko;July?24,2001,Method?and?portable?apparatus?for?performing?spoken?language?translation);
美國專利6,826,568(Bernstein;Philip?A.;Madhavan;Jayant;November?30,2004,Methods?and?system?for?model?matching);
美國專利5,930,756(Mackie;Andrew?William;Miller;Corey?Andrew;Karaali;Orhan;June?23,1997,Method,device?and?system?for?a?memory-efficientrandom-access?pronunciation?lexicon?for?text-to-speech?synthesis);
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于富士通株式會社,未經富士通株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200610165633.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于在金屬基底上制備鉻-鋯涂層的組合物和方法
- 下一篇:用于鍛造的方法和設備





