[發明專利]命名實體的識別方法、裝置及分類模型的創建方法、裝置在審
| 申請號: | 201310611971.5 | 申請日: | 2013-11-26 |
| 公開(公告)號: | CN103617239A | 公開(公告)日: | 2014-03-05 |
| 發明(設計)人: | 李超;李興建 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 宋合成 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 命名 實體 識別 方法 裝置 分類 模型 創建 | ||
技術領域
本發明涉及互聯網技術領域,尤其涉及一種命名實體的識別方法和裝置及分類模型的創建方法和裝置。
背景技術
隨著互聯網技術的快速發展,信息服務變得越來越普及。其中,命名實體的識別是信息提取、問答系統、句法分析、機器翻譯、面向互聯網的元數據標注等信息服務應用領域的重要基礎工作。其中,命名實體可以為人名、機構名、地名以及其他以名稱為標識的實體等,更廣泛地命名實體還可為數字、日期、貨幣、地址等。
通常,命名實體識別就是識別出待處理文本中三大類(實體類、時間類和數字類)命名實體,以及七小類(人名、機構名、地名、時間、日期、貨幣和百分比)命名實體。目前,主要通過對待處理文本中的上下文進行判斷來實現命名實體的識別。如果沒有上下文,且需要單純判斷某個詞是哪一類的命名實體時,則需要獲取用戶的點擊行為記錄,并根據用戶的點擊行為記錄判斷命名實體。因此可以看出現有技術存在以下問題:如果沒有用戶的點擊行為記錄,則無法對命名實體進行識別。
發明內容
本發明旨在至少解決上述技術問題之一。
為此,本發明的第一個目的在于提出一種命名實體的識別方法。該方法在沒有上下文、用戶的點擊行為記錄的情況下根據搜索結果對命名實體進行識別,增加了命名實體的分類識別途徑,此外,還可提高命名實體識別的準確度,提高了識別效率。
本發明的第二個目的在于提出一種分類模型的創建方法。
本發明的第三個目的在于提出一種命名實體的識別裝置。
本發明的第四個目的在于提出一種分類模型的創建裝置。
為了實現上述目的,本發明第一方面實施例的命名實體的識別方法,包括以下步驟:獲取待識別的命名實體;將所述待識別的命名實體發送至搜索引擎以獲取搜索結果,并抽取所述搜索結果的特征信息;以及將所述待識別的命名實體、所述特征信息發送至預設的分類模型,以根據所述預設的分類模型獲取所述待識別的命名實體的至少一個分類類別。
本發明實施例的命名實體的識別方法,可將待識別的命名實體發送至搜索引擎以獲取搜索結果,并抽取搜索結果的特征信息,以及將待識別的命名實體、特性信息發送至預設的分類模型,以根據預設的分類模型獲取待識別的命名實體的分類類別,由此,可以在沒有上下文、用戶的點擊行為記錄的情況下根據搜索結果對命名實體進行識別,增加了命名實體的分類識別途徑,特別是在冷啟動的搜索引擎中具有更加廣泛的意義。此外,還可以提高命名實體識別的準確度,提高了識別效率。
為了實現上述目的,本發明第二方面實施例的分類模型的創建方法,包括以下步驟:獲取已標注類別的樣本命名實體;將所述已標注類別的樣本命名實體發送至搜索引擎,并獲取所述搜索引擎根據所述已標注類別的樣本命名實體反饋的搜索結果;從所述反饋的搜索結果中抽取特征信息;以及根據所述已標注類別的命名實體、對應的所述標注類別、對應的所述特征信息按照已有算法進行訓練以創建第一分類模型。
本發明實施例的分類模型的創建方法,可將已標注類別的樣本命名實體發送至搜索引擎,并獲取搜索引擎根據已標注類別的樣本命名實體反饋的搜索結果,從反饋的搜索結果中抽取特征信息,并根據已標注類別的命名實體、對應的標注類別、對應的特征信息按照已有算法進行訓練以創建第一分類模型,通過監督學習搜索引擎的方法為命名實體的識別方法創建分類模型,從而通過分類模型獲取命名實體的分類類別,提高了識別效率。
為了實現上述目的,本發明第三方面實施例的命名實體的識別裝置,包括:命名實體獲取模塊,用于獲取待識別的命名實體;抽取模塊,用于將所述待識別的命名實體發送至搜索引擎以獲取搜索結果,并抽取所述搜索結果的特征信息;以及分類類別獲取模塊,用于將所述待識別的命名實體、所述特征信息發送至預設的分類模型,以根據所述預設的分類模型獲取所述待識別的命名實體的至少一個分類類別。
本發明實施例的命名實體的識別裝置,通過抽取模塊將待識別的命名實體發送至搜索引擎以獲取搜索結果,并抽取搜索結果的特征信息,分類類別獲取模塊將待識別的命名實體、特征信息發送至預設的分類模型,以根據預設的分類模型獲取待識別的命名實體的分類類別,由此,可以在沒有上下文、用戶的點擊行為記錄的情況下根據搜索結果對命名實體進行識別,增加了命名實體的分類識別途徑,特別是在冷啟動的搜索引擎中具有更加廣泛的意義。此外,還可以提高命名實體識別的準確度,提高了識別效率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310611971.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于光存儲陣列的文件管理方法以及文件格式系統
- 下一篇:頁面歸并方法及裝置





