[發明專利]無歧義日本人名列表構建方法、人名識別方法及裝置在審
| 申請號: | 201310412289.3 | 申請日: | 2013-09-11 |
| 公開(公告)號: | CN104424332A | 公開(公告)日: | 2015-03-18 |
| 發明(設計)人: | 宋雙永;孟遙;鄭仲光;于浩 | 申請(專利權)人: | 富士通株式會社 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 王萍;李春暉 |
| 地址: | 日本神*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 歧義 日本 人名 列表 構建 方法 識別 裝置 | ||
技術領域
本發明涉及文本識別領域,尤其涉及一種日本人名的識別方法及裝置。
背景技術
隨著通訊技術的發展,各國交流變得日益廣泛、信息傳播也變得越來越方便迅速。因此,在中文文本中會包含大量的外國機構名、人名和地名等命名實體。然而,這些命名實體本身并不一定存在于傳統的詞典之中,屬于未登錄詞(即Out?Of?Vocabulary,簡稱OOV),這就給很多以中文分詞為基礎的自然語言處理相關應用帶來了困難。對這些命名實體進行有效識別,能夠有效提高網絡文本分類、實體關聯網絡構建以及話題檢測與跟蹤等應用效果的提高。
在識別該類命名實體的過程中,日本人名的識別難度較大,這是由于日本人名中包含的姓氏很多,并且其長度、用字等方面都沒有很嚴格的限定。目前相關的研究主要分為兩類:一類是基于中文分詞結果,對詞語進行類似“日本人名首字”、“日本人名中間部分”和“日本人名首字與上文成詞”等等一系列標注,進而發現日本人名。例如“日本記者川口信一郎報道”一句中,根據分詞結果“日本/記者/川/口信/一/郎/報道”,其中的“川”應該被標注為日本人名首字,“口信”和“一”都應該被標注為日本人名中間部分,而“郎”則應該被標記為日本人名尾字。但是由于“川”在除日本人名以外的中文文本中出現的概率也非常的大,因此在這里未能按照上述的正確標注結果對該句進行標注。可見,這是由于分詞過程中未能夠將“川口”正確識別為日本姓氏導致的,因為雖然“川”在中文文本中出現的概率非常大,但是“川口”則一般只出現在日本人名之中。
另一類日本人名識別方法則是通過發現可能出現的日本姓氏,以及日本人名后綴,并通過相應的概率計算來發現日本人名。例如“小淵惠三首相”中,小淵是日本姓氏,首相是人名后綴,如果計算得到“小淵”、“惠”、“三”組成日本人名的概率大于某閾值,“小淵惠三”就能夠被識別為日本人名。但是該方法的局限性很多,首先,日本姓氏的發現對于“林”、“尹”這種中國和日本都存在的姓氏,或者“樹下”、“大同”這種在中文文本中有非常大歧義的日本姓氏,都會產生錯誤的識別結果;其次,人名的后綴很多時候在日本人名之后并未出現,因此該人名后邊界識別方式的覆蓋范圍也不是很高;另外,因為某些字在日本名字中出現的概率很小,也會導致日本人名的漏識別,例如,如果整個訓練集中的日本人名都未出現“葦”,那么“大久保葦歌”就會因為“葦”的計算概率為0而無法被識別,然而,“大久保”一般只作為日本姓氏在中文文本中出現,所以即使通過訓練數據集計算得到“葦”作為日本人名用字的概率為0,此處也應該被識別為日本人名。
發明內容
本發明針對日本人名的識別難點,設計了一種無歧義日本人名相關詞語列表構建方法,并根據該方法得到的無歧義日本人名相關詞語列表進行中文分詞以及中文文本中的日本人名識別,能夠改進上述日本人名識別方法中所存在的問題。
根據本發明的一方面,提供了一種構建無歧義日本人名相關詞語列表的方法,所述方法包括:利用日本姓氏列表對日本常見人名列表進行姓名分離以得到日本名字列表;將帶有日本人名相關標記的訓練語料劃分為日本人名相關詞語集合和其他詞語集合;將所述日本人名相關詞語集合與所述日本常見人名列表、日本姓氏列表和從日本常見人名列表進行姓名分離而得到日本名字列表合并為日本人名相關詞語總集合;針對日本人名相關詞語總集合中的每一個日本人名相關詞語判斷該詞語是否為無歧義日本人名相關詞語以建立無歧義日本人名相關詞語列表。
根據本發明的另一方面,在針對日本人名相關詞語總集合中的每一個日本人名相關詞語判斷該詞語是否為無歧義日本人名相關詞語以建立無歧義日本人名相關詞語列表的步驟中,在日本人名相關詞語在訓練語料中只作為日本人名相關詞語出現,而不作為其他角色出現的情況下,判斷該詞語為無歧義日本人名相關詞語,從而將該詞語歸并到相應的無歧義日本人名相關詞語列表中。
根據本發明的另一方面,提供了一種利用無歧義日本人名相關詞語列表的日本人名識別方法,所述日本人名識別方法包括:基于無歧義日本人名相關詞語列表對待識別人名的語句進行分詞以獲得待標注序列;對待標注序列中包含的無歧義日本人名相關詞語給定相應的角色標注;以及利用人名識別模型對所述待標注序列中除無歧義日本人名相關詞語之外的其他詞語進行角色標注。
根據本發明的另一方面,所述日本人名識別方法還包括:對待標注序列中的詞語進行角色標注之后所獲得的標注結果執行包括日本人名識別結果檢查和日本人名識別結果擴散的后處理。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于富士通株式會社,未經富士通株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310412289.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于時間的相片分類方法及其系統
- 下一篇:一種數據處理方法及電子設備





