[發(fā)明專利]用于對命名實體進行分類的方法和裝置有效
| 申請?zhí)枺?/td> | 201010506217.1 | 申請日: | 2010-09-29 |
| 公開(公告)號: | CN102436456A | 公開(公告)日: | 2012-05-02 |
| 發(fā)明(設計)人: | 倪淵;張雷;裘照明 | 申請(專利權)人: | 國際商業(yè)機器公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京市金杜律師事務所 11256 | 代理人: | 王茂華;趙林琳 |
| 地址: | 美國紐*** | 國省代碼: | 美國;US |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 命名 實體 進行 分類 方法 裝置 | ||
技術領域
本發(fā)明涉及數(shù)據(jù)處理領域,更具體地說,涉及用于對命名實體進行分類的方法和裝置。
背景技術
命名實體(named?entity)的分類是許多應用的關鍵步驟。命名實體從本質上說就是一個具有語義學意義的單詞。例如,在自動問答系統(tǒng)中,需要確定候選答案的類型是否符合問題所指定的類型。在信息抽取系統(tǒng)中,需要確定命名實體的類型,以便為后續(xù)的抽取處理做準備。
傳統(tǒng)的自動分類系統(tǒng)基于機器學習。具體而言,向自動分類系統(tǒng)輸入一系列已知類型的命名實體,每個命名實體對應于一個特征向量。自動分類系統(tǒng)經(jīng)過機器學習后獲得特征向量與類型的對應關系。當自動分類系統(tǒng)接收到待分類命名實體及其特征向量后,就可以根據(jù)所述對應關系對該待分類命名實體進行分類。
例如,可以利用命名實體本身的詞匯級信息和上下文信息作為特征向量的元素。在這種情況下,命名實體的特征向量就是一個二維向量。對于一個命名實體Smith,所述詞匯級信息例如該命名實體的首字母是大寫,所述上下文信息例如該命名實體之前的一個詞是Professor。該命名實體的特征向量為(首字母大寫,跟隨在Professor后)。如果自動分類系統(tǒng)已經(jīng)將該特征向量對應到類型“人物”,那么就可以將該命名實體歸入“人物”這一類型,而不是“組織”這一類型。本領域技術人員可以理解,特征向量和類型未必是一一對應的關系。
以上方法需要手工地為學習用的命名實體確定恰當?shù)念愋停瑫磔^大的工作量。此外,隨著互聯(lián)網(wǎng)的發(fā)展,在網(wǎng)絡上能夠獲取越來越多的信息,這些信息可以用來幫助對命名實體進行分類。因此,需要一種方案,以便利用這些信息幫助對命名實體進行自動分類。
發(fā)明內容
本發(fā)明提供了用于對命名實體進行分類的方法以及裝置。
根據(jù)本發(fā)明實施例的用于對命名實體進行分類的方法包括:從鏈接開放數(shù)據(jù)(Linking?Open?Data,LOD)數(shù)據(jù)集中讀取與待分類命名實體對應的LOD節(jié)點;將所述與該待分類命名實體對應的LOD節(jié)點的類型屬性作為所述待分類命名實體的標注類型;讀取候選類型;和根據(jù)所述標注類型計算該待分類命名實體屬于所述候選類型的可能性。
根據(jù)本發(fā)明實施例的用于對命名實體進行分類的裝置包括:LOD節(jié)點讀取裝置,配置為從鏈接開放數(shù)據(jù)LOD數(shù)據(jù)集中讀取與待分類命名實體對應的LOD節(jié)點;標注類型確定裝置,配置為將所述與該待分類命名實體對應的LOD節(jié)點的類型屬性作為所述待分類命名實體的標注類型;候選類型讀取裝置,配置為讀取候選類型;和可能性確定裝置,配置為根據(jù)所述標注類型計算該待分類命名實體屬于所述候選類型的可能性。
根據(jù)本發(fā)明的技術方案,可以利用網(wǎng)絡上存在的大量信息來幫助對命名實體進行的自動分類。
附圖說明
圖1示出示例性的LOD數(shù)據(jù)集。
圖2示出根據(jù)本發(fā)明實施例的用于命名實體分類的方法。
圖3示出根據(jù)本發(fā)明實施例的根據(jù)標注類型計算待分類命名實體屬于各候選類型的可能性的方法。
圖4示出示例性的中間本體。
圖5示出根據(jù)本發(fā)明實施例的用于命名實體分類的裝置。
具體實施方式
以下參照附圖說明本發(fā)明提供的處理器和調度處理器的方法的具體實施方式。在下面的說明中,闡述了許多具體細節(jié)以便更全面地了解本發(fā)明。但是,本技術領域技術人員容易理解,本發(fā)明的實現(xiàn)可不具有這些具體細節(jié)中的一些,并且本發(fā)明并不限于所介紹的特定實施例。相反,可以考慮用下面的特征和要素的任意組合來實施本發(fā)明,而無論它們是否涉及不同的實施例。因此,下面的方面、特征、實施例和優(yōu)點僅作說明之用而不應被看作是所附權利要求的要素或限定,除非權利要求中明確提出。還需要說明的一點是,為了避免因不必要的細節(jié)而模糊了本發(fā)明,在附圖中僅僅示出了與根據(jù)本發(fā)明的方案密切相關的裝置結構和/或處理步驟,而省略了與本發(fā)明關系不大的其他細節(jié)。此外,除非刻意地使用“直接”或者“間接”加以限定,否則本申請文件中的連接既包括直接連接,也包括間接地連接。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國際商業(yè)機器公司,未經(jīng)國際商業(yè)機器公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010506217.1/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:POS機的外殼及POS機
- 下一篇:一種剪切層流動控制方法





