[發明專利]CJK姓名檢測有效
| 申請號: | 201310052624.3 | 申請日: | 2007-12-06 |
| 公開(公告)號: | CN103136190A | 公開(公告)日: | 2013-06-05 |
| 發明(設計)人: | 吳軍;許暉;張一飛 | 申請(專利權)人: | 谷歌公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 中原信達知識產權代理有限責任公司 11219 | 代理人: | 周亞榮;安翔 |
| 地址: | 美國加利*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | cjk 姓名 檢測 | ||
分案說明
本申請屬于國際申請日為2007年12月6日的PCT國際申請PCT/CN2007/003464的中國國家階段專利申請200780102296.6的分案申請。
技術領域
本說明書涉及姓名檢測,具體地涉及用于中文、日語以及韓語(“CJK”)的姓名檢測。
背景技術
典型地在例如自動語音識別(ASR)、機器翻譯(MT)、光學字符識別(OCR)、句子解析、非羅馬字符輸入法編輯器(IME)以及web搜索應用的自然語言處理中使用姓名檢測。
可以使用樸素貝葉斯分類方法來基于“X”相對于其上下文(context)(例如,在“X”之前或在“X”之后出現的字符)標識(identify)姓名的概率與“X”相對于其上下文不標識姓名的概率的比率,檢測字符序列“X”是否標識姓名。使用語言模型來計算這些條件概率。典型的統計語言模型是詞或字符序列相對于其歷史(例如,在數據集合中先前詞或字符序列的出現)的概率測量。具體地,使用基于馬爾可夫假設的常規n-gram語言模型來預測詞或字符序列。
n-gram是n個連續符號—例如詞或字符—的序列。n-gram具有級(order),其為在n-gram中的符號的數量。例如,1-gram(或者單gram)包括一個符號;2-gram(或者二gram)包括兩個符號。
給定n-gram可以根據該n-gram的不同部分來描述。n-gram可以被描述為上下文(context)和未來符號(context,c),其中context(上下文)具有長度n-1并且c表示未來符號。例如,3-gram“x?y?z”可以按照n-gram上下文和未來符號來描述。n-gram上下文包括在n-gram的最末符號之前的n-gram的所有符號。在給出的示例中,“x?y”為上下文。在上下文中的最左部符號被稱為左部符號。未來符號為n-gram的最末符號,其在該示例中為“z”。n-gram還可以關于右部上下文和回退上下文來描述。右部上下文包括在n-gram的第一符號之后的n-gram的所有符號,被表示為(n-1)-gram。在上面的示例中,“yz”為右部上下文。此外,回退上下文為n-gram的上下文除去上下文中的最左部符號。在上面的示例中,“y”為回退上下文。
每一個n-gram具有作為在訓練數據中n-gram相對頻率的函數來計算的相關聯的概率估計。例如,L個符號的字符串被表示為可以如下將概率賦值給字符串
其中該逼近基于在預測字符串中的下一符號時只有最近的(n-1)個符號是相關的馬爾可夫假設,并且用于P的“^”標記指示其為概率函數的逼近。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于谷歌公司,未經谷歌公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310052624.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種吸水顆粒均勻噴灑裝置
- 下一篇:刮膠裝置





