[發明專利]CJK姓名檢測有效

申請號：	201310052624.3	申請日：	2007-12-06
公開（公告）號：	CN103136190A	公開（公告）日：	2013-06-05
發明（設計）人：	吳軍;許暉;張一飛	申請（專利權）人：	谷歌公司
主分類號：	G06F17/27	分類號：	G06F17/27
代理公司：	中原信達知識產權代理有限責任公司 11219	代理人：	周亞榮;安翔
地址：	美國加利***	國省代碼：	美國;US
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	cjk 姓名檢測
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

分案說明

本申請屬于國際申請日為2007年12月6日的PCT國際申請PCT/CN2007/003464的中國國家階段專利申請200780102296.6的分案申請。

技術領域

本說明書涉及姓名檢測，具體地涉及用于中文、日語以及韓語（“CJK”）的姓名檢測。

背景技術

典型地在例如自動語音識別（ASR）、機器翻譯（MT）、光學字符識別（OCR）、句子解析、非羅馬字符輸入法編輯器（IME）以及web搜索應用的自然語言處理中使用姓名檢測。

可以使用樸素貝葉斯分類方法來基于“X”相對于其上下文（context）（例如，在“X”之前或在“X”之后出現的字符）標識（identify）姓名的概率與“X”相對于其上下文不標識姓名的概率的比率，檢測字符序列“X”是否標識姓名。使用語言模型來計算這些條件概率。典型的統計語言模型是詞或字符序列相對于其歷史（例如，在數據集合中先前詞或字符序列的出現）的概率測量。具體地，使用基于馬爾可夫假設的常規n-gram語言模型來預測詞或字符序列。

n-gram是n個連續符號—例如詞或字符—的序列。n-gram具有級（order），其為在n-gram中的符號的數量。例如，1-gram（或者單gram）包括一個符號；2-gram（或者二gram）包括兩個符號。

給定n-gram可以根據該n-gram的不同部分來描述。n-gram可以被描述為上下文（context）和未來符號（context，c），其中context（上下文）具有長度n-1并且c表示未來符號。例如，3-gram“x?y?z”可以按照n-gram上下文和未來符號來描述。n-gram上下文包括在n-gram的最末符號之前的n-gram的所有符號。在給出的示例中，“x?y”為上下文。在上下文中的最左部符號被稱為左部符號。未來符號為n-gram的最末符號，其在該示例中為“z”。n-gram還可以關于右部上下文和回退上下文來描述。右部上下文包括在n-gram的第一符號之后的n-gram的所有符號，被表示為（n-1）-gram。在上面的示例中，“yz”為右部上下文。此外，回退上下文為n-gram的上下文除去上下文中的最左部符號。在上面的示例中，“y”為回退上下文。

每一個n-gram具有作為在訓練數據中n-gram相對頻率的函數來計算的相關聯的概率估計。例如，L個符號的字符串被表示為可以如下將概率賦值給字符串

P(c1L)=Πi=1LP(ci|c1i-1)≈Πi=1LP^(ci|ci-n+1i-1),]]>