[發明專利]一種基于互異特征向量的重復物料實體識別方法在審
| 申請號: | 202110047689.3 | 申請日: | 2021-01-14 |
| 公開(公告)號: | CN112861918A | 公開(公告)日: | 2021-05-28 |
| 發明(設計)人: | 王紅濤;馮連強;王志超;丁小梅;崔冬 | 申請(專利權)人: | 中國重型機械研究院股份公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 西安吉盛專利代理有限責任公司 61108 | 代理人: | 張培勛 |
| 地址: | 710032 陜*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 特征向量 重復 物料 實體 識別 方法 | ||
本發明公開了一種基于互異特征向量的重復物料實體識別方法,包括以下步驟:S1、輸入物料數據集S2、物料數據預處理,S3,構建互異特征向量與類別向量;S4、訓練和測試概率神經網絡分類器,S5、獲取待測物料記錄的互異特征向量;S6、將S5中獲得的物料記錄的互異特征向量輸入訓練完畢的概率神經網絡分類器,如果概率神經網絡分類器的輸出結果為1,表示兩個物料記錄在語義表達上存在差異,如果概率神經網絡分類器的輸出結果為0,則表示兩個物料記錄在語義表達上相同。考慮實體特征描述之間的差異,充分利用實體自身的特征信息,來解決通用知識庫在測度不同領域實體之間語義相似性的局限性。
技術領域
本發明屬于實體識別技術領域,具體涉及一種基于互異特征向量的重復物料實體識別方法。
背景技術
重復實體識別,又稱為實體識別,是在數據庫中識別哪些記錄表示現實世界同一實體的過程。重復記錄的識別和檢測是學術界和業界普遍關心的問題,已經引起了數據庫、信息系統及其他相關領域學者的研究興趣,對該問題的研究取得了豐富的成果。
現有的實體識別方法,大多采用基于文本相似度函數的字符串匹配方法,如編輯距離方法、向量空間模型方法(Vector Space Model,VSM)等,即根據兩條記錄對應屬性的字符匹配程度來判斷兩條記錄的相似性。
黃林晟,鄧志鴻,唐世渭,王文清,陳凌在其發表的論文“基于編輯距離的中文組織機構名簡稱-全稱匹配算法”(山東大學學報(理學版),2012年)中提出了一種基于編輯距離思想的中文實體名稱匹配方法。該方法首先對實體名稱進行分詞,之后通過調整編輯距離的權重測度實體名稱之間的相似性。該方法存在的不足之處是,采用編輯距離計算實體名稱之間的相似性,忽略了實體名稱之間的語義相似性,導致識別準確性低下。
南京郵電大學申請的專利“一種基于編輯距離的數據相似度檢測方法”(申請公布號:CN109117464A,申請號:2018109261255)中提出了一種基于編輯距離的字符串相似度檢測算法。該方法通過獲取兩個字符串之間的編輯距離、最長公共子序列、最長公共子串來測度字符串之間的相似度。該方法存在的不足之處是,該方法通過編輯距離計算字符串之間的相似度,沒有考慮字符串之間的語義相似性,造成計算準確率低下。
除編輯距離方法以外,向量空間模型(Vector Space Model,VSM)也是信息檢索和文本挖掘領域常用的文本相似度計算方法,該方法結合字符出現的頻次與權重計算文本之間的相似性。廈門美域中央信息科技有限公司申請的專利“一種基于向量空間模型的文本分類及R語言實現”(申請公布號:CN110750639A,申請號:CN201910587852.8)中提出了一種基于向量空間模型的文本相似度檢測方法。該方法首先構建文本之間的向量空間模型,進而通過比較向量夾角與設定閾值之間的關系來測度文本之間的語義相似性。這種方法只考慮文本描述之間的表象特征,忽略了文本之間的語義相似性,在一定程度上影響文本分類的準確性。
通過對上述相關研究的分析總結發現,當前主流的重復記錄識別算法大都基于如下假設:無論是輸入錯誤或是不同的表達等原因,同一實體的屬性值在表象上相差不大。比如“Jone Doe”與“Jonn Doe”,雖然字符串表象上有細微差異,但有可能表示的是同一個人。然而,這個假設在識別重復物料記錄時并不成立。對于物料名稱來說,即使兩條物料記錄在命名及表達上相差甚遠,但它們仍然可能代表的是同一種物料;或者兩條物料記錄在命名及表達上極為相近,但有可能代表的是完全不同的兩種物料。例如“無油軸承”與“自潤滑軸承”,不同的名字描述的卻是同一種物料;又如“無油軸承”與“有油軸承”,相近的物料名稱,描述的卻是兩種不同的物料。也就是說,在識別重復物料記錄方面,不僅僅要考慮字符串本身,還要考慮字符之間的語義相似性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國重型機械研究院股份公司,未經中國重型機械研究院股份公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110047689.3/2.html,轉載請聲明來源鉆瓜專利網。





