[發明專利]基于決策樹規則和多種統計模型相結合的人名識別算法有效
| 申請號: | 201410060957.5 | 申請日: | 2014-02-21 |
| 公開(公告)號: | CN103823859B | 公開(公告)日: | 2017-02-22 |
| 發明(設計)人: | 鄭中華;周俊;周銀行 | 申請(專利權)人: | 安徽博約信息科技股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 230000 安徽省合肥市*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 決策樹 規則 多種 統計 模型 相結合 人名 識別 算法 | ||
技術領域
本發明涉及一種基于決策樹規則和多種統計模型相結合的人名識別算法。
背景技術
自然語言處理是互聯網信息搜索領域的核心分析技術,在搜索引擎、輿情監控以及電子商務等眾多互聯網IT產業都有廣泛的應用。隨著互聯網信息指數級增長以及用戶體驗需求越來越高,在保證處理速度滿足用戶使用需求的前提下,互聯網信息搜索對自然語言處理結果的要求越來越精準。人名識別是自然語言處理詞法分析中最困難的核心問題之一,不管在搜索引擎領域還是在輿情監控領域,用戶對人名、地名和機構名等實體詞的關注度遠高于常用詞,而且人名作為無法直接采用詞典匹配識別的未登錄詞,識別難度大,因此,一直以來都是備受關注的研究問題。
所謂人名識別,在本文中是指針對給定漢語句子,準確地標出句中所含所有完整人名,包括姓氏和名字,而對于指代人物的身份詞,姓氏指代詞或無姓人名則不用標出,因為身份詞、姓氏指代詞和無姓人名通常指代一類人而不是一個人,且一般用于非正式場合,用戶關注度并不高,故不在本文人名識別范圍內。如給定句子“揭景崗山二婚娶李亞鵬經紀人”,需要標出人名“景崗山”和“李亞鵬”;又如“媽媽告訴兒子鵬鵬做人要誠實”,“李考上大學”等句子中,身份詞“媽媽”和“兒子”,姓氏指代詞“李”,無姓人名“鵬鵬”都不用標出。
現有的技術方案如下:
基于統計機器學習和基于統計與規則相結合是目前最主流的人名識別方法,基于統計機器學習的人名識別方法通過定義語義角色對語言文本的詞序列進行角色標注,然后利用統計模型對文本中出現的語義角色進行建模與計算,最終得到人名的識別結果,由于該方法實現難度小,且一致性好,故而得到廣泛的應用。基于統計與規則相結合的人名識別方法是在基于統計機器學習的基礎上,加上啟發式規則,對統計模型的識別結果進行修正,以提升綜合識別效果。由于統計模型僅從整體考慮,可能抑制局部小概率事件的發生,而且訓練語料庫也存在信息不全面等局限,導致統計信息存在誤差,造成很多人名遺漏識別或錯誤識別,因此需要結合一些啟發式規則進行召回和剔除,以彌補統計模型的不足。
從圖1中可以看出,基于統計機器學習的人名識別方法主要包括離線統計和在線識別兩部分。
離線統計指離線完成統計模型的參數訓練,主要包括角色定義與信息統計和統計模型構建與訓練兩項工作,角色定義根據人名的構成特征和上下文特征定義語義角色,一般包括人名姓氏,人名用字,上文特征以及下文特征等,如“演員周星馳擔任政協委員”,“演員”為上文特征,“周”為姓氏,“星”和“馳”為人名用字,“擔任”為下文特征,角色信息統計則根據人名庫和訓練語料庫統計所有的人名姓氏,人名用字等角色信息;統計模型構建和參數訓練指根據定義的語義角色,構建合適的統計模型,如隱馬爾科夫模型,條件隨機場模型,位置概率模型以及貝葉斯模型等,然后利用訓練語料庫計算統計模型中常數參數值。
在線識別指根據輸入的語言文本,標注其中所含有的所有人名并輸出。在線識別過程如下:1)選用合適的粗分算法,如N-Gram、最大匹配算法等,將輸入的連續漢語語言文本字符串切分為詞序列;2)采用離線統計的角色詞庫對詞序列執行角色識別,即標注出語言文本中出現的所有人名語義角色;3)采用已訓練的統計模型,對文本中出現的語義角色進行分析與計算,并得出識別結果;4)采用啟發式規則對識別結果進行召回和剔除,召回遺漏識別,剔除錯誤識別,本步驟可無;5)輸出語言文本中人名的識別結果。
現有技術的缺點是:
1)采用單一統計模型,綜合識別效果差。由于人名構成特征和上下文特征復雜,不具備統一特征,現有技術采用單一模型無法覆蓋所有人名構成特征和上下文特征,且出現規則沖突概率較大,導致綜合識別效果差。
2)識別效果過于依賴訓練語料庫,可靠性低。對統計模型來說,訓練語料庫的普適性和全面性直接影響模型參數的可靠性,從而決定最終的識別效果,而內容全面,涵蓋所有人名構成特征和上下文特征的語料庫幾乎不存在,而現有技術采用的主要為統計模型,故而過于依賴經驗主義,可靠性較低。
3)綜合識別效率低。語言文本中出現的相當一部分人名角色可通過規則快速排除,或者通過更簡單的統計模型即可高效準確的識別,而現有技術對所有標注的人名角色采用同一種統計模型進行計算,故而綜合識別效率低。
發明內容
本發明要解決的技術問題是漢語語言文本中的中國人名識別問題。
為了解決上述技術問題,本發明采用的技術方案是:基于決策樹規則和多種統計模型相結合的人名識別算法,包括離線統計和在線識別兩個過程:
1.離線統計
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于安徽博約信息科技股份有限公司,未經安徽博約信息科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410060957.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種隧道爐內工件傳輸裝置的外殼組件
- 下一篇:全折疊滑板車





