[發明專利]一種詞形還原方法及裝置有效
| 申請號: | 201210075356.2 | 申請日: | 2012-03-21 |
| 公開(公告)號: | CN103324608A | 公開(公告)日: | 2013-09-25 |
| 發明(設計)人: | 何徑舟;王曉露 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京鴻德海業知識產權代理事務所(普通合伙) 11412 | 代理人: | 袁媛 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 詞形 還原 方法 裝置 | ||
技術領域
本發明涉及自然語言處理技術領域,特別是涉及一種詞形還原方法及裝置。
背景技術
根據詞的結構與構成語素之間的關系,一般把世界上的語言分成孤立語、粘著語、屈折語、復綜語四種類型。其中,曲折語的特點是以豐富的詞形變化來表示詞語間的語法關系,常見的屈折語例如英語、法語、俄語等等。
英文作為一種屈折語,存在大量包括單復數、時態、比較級、所有格等在內的一系列復雜的詞形變換現象。因此,對于英文進行詞形分析,往往是進行各種英文處理(例如常用詞組識別、名詞短語識別、命名實體分析)的基礎。而在很多具體的應用中,同樣需要用到詞形分析技術,例如,用戶在進行網頁搜索操作時,提交的query是“smoking?detector”,那么對于搜索引擎而言,可能需要返回包含“smoke’s?detector”、“smoke?detector”、“smoke?detect”等等的網頁結果,這些都是“smoking?detector”的不同詞形表現形式。
由于英文存在詞形變換現象,同一個詞組或命名實體可能有多種表現形式。如常用詞組take?care,在實際使用中可能表現為takes?care、took?care、taken?care、take?cares等等形式。受詞典規模所限,不能簡單將這些形式窮舉(受指數規律影響,單詞數為n的詞組,如果其中每個單詞有m種詞形變換,那么整個詞組的詞形變換形式將有O(mn)之多)。因此一般來說,會先對英文單詞進行詞根還原操作,即先將英文單詞的實際表現形式還原為詞根形式,再進行后續處理。
但是,詞根還原并不能完全等同于詞形還原,詞形還原需要把一個任何形式的英語單詞還原到一般形式,而詞根還原只是抽取一個單詞的詞根。因此,現有的利用詞根還原算法實現詞形還原的技術普遍存在過還原(overstemming)現象:即指將詞條還原為過于簡單的詞根,從而導致語義的轉義或歧義等問題。舉例說明如下:
“probable(可能)→probe(探頭)”,從規則上來說沒問題,但是語義發生了變化,從而導致轉義問題;
“animal(動物)→anim”和“animation(動畫)→anim”,詞根都是anim,但是和原形的含義并不一樣,從而導致歧義問題。
發明內容
為解決上述技術問題,本發明實施例提供一種詞形還原方法及裝置,以解決現有的詞形還原算法所存在的過還原問題。技術方案如下:
本發明實施例提供一種詞形還原方法,其特征在于,包括:
對待還原詞條進行詞根還原,獲取詞根還原算法各步驟的輸出結果加入還原候選集合;
對于每個還原候選,分別計算該還原候選相對于所述待還原詞條的還原概率;
根據還原概率的大小,確定所述待還原詞條的詞形還原結果。
在本發明的一種實施方式中,在對待還原詞條進行詞根還原之前,還包括:
利用預置的免還原詞表對所述待還原詞條進行過濾,
若所述待還原詞條在所述免還原詞表中,則停止后續步驟。
在本發明的一種實施方式中,在對待還原詞條進行詞根還原之前,還包括:
利用預置的不規則詞表對所述待還原詞條進行過濾,
若所述待還原詞條在所述不規則詞表中,則根據所述不規則詞表,將所述待還原詞條的原型加入還原候選集合。
在本發明的一種實施方式中,在計算原候選相對于待還原詞條的還原概率之前,還包括:
對還原候選進行過濾,去除不合理的還原候選。
在本發明的一種實施方式中,所述對還原候選進行過濾,包括:
判斷還原候選是否屬于預置的詞干白名單,如果否,則去除該還原候選。
在本發明的一種實施方式中,所述對還原候選進行過濾,包括:
比較待還原詞條與還原候選的差異部分,判斷該差異部分是否屬于預置的詞綴黑名單,如果是,則去除該還原候選。
在本發明的一種實施方式中,在存在多個詞形還原結果的情況下,上述方法還包括:
統計每個詞形還原結果的還原概率、以及該詞形還原結果與待還原詞條上下文內容的語言模型共現概率;
對于每個詞形還原結果,計算其靜態還原概率與共現概率的乘積;
選擇乘積最大的詞形還原結果作為最終輸出的詞形還原結果。
本發明實施例還提供一種詞形還原裝置,包括:
詞根還原單元,用于對待還原詞條進行詞根還原,獲取詞根還原算法各步驟的輸出結果加入還原候選集合;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210075356.2/2.html,轉載請聲明來源鉆瓜專利網。





