[發明專利]一種基于互異特征向量的重復物料實體識別方法在審
| 申請號: | 202110047689.3 | 申請日: | 2021-01-14 |
| 公開(公告)號: | CN112861918A | 公開(公告)日: | 2021-05-28 |
| 發明(設計)人: | 王紅濤;馮連強;王志超;丁小梅;崔冬 | 申請(專利權)人: | 中國重型機械研究院股份公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 西安吉盛專利代理有限責任公司 61108 | 代理人: | 張培勛 |
| 地址: | 710032 陜*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 特征向量 重復 物料 實體 識別 方法 | ||
1.一種基于互異特征向量的重復物料實體識別方法,其特征在于,包括以下步驟:
S1、輸入物料數據集,輸入物料數據的二維表;
S2、物料數據預處理,將所有物料記錄根據物料所屬類劃分成相互獨立的記錄塊;
S3,構建互異特征向量與類別向量,針對每一個獨立的物料記錄塊,根據記錄塊內每一條物料記錄之間的特征描述差異,兩兩構建物料記錄之間的互異特征向量以及物料記錄之間相似與否的類別向量;
S4、訓練和測試概率神經網絡分類器,將同一物料記錄塊內的互異特征向量和類別向量分為訓練樣本和測試樣本,在訓練時,將訓練樣本的互異特征向量和類別向量輸入概率神經網絡分類器,得到訓練好的概率神經網絡分類器,之后將測試樣本內的互異特征向量輸入訓練好的概率神經網絡分類器,概率神經網絡分類器輸出類別向量,將輸出的類別向量與測試樣本的類別向量對比,若對比結果合格,則認為概率神經網絡分類器訓練完畢,若不合格,則重新劃分訓練樣本和測試樣本再次訓練和測試;
S5、獲取待測物料記錄的互異特征向量,按照S1、S2和S3的步驟獲取待測物料記錄的互異特征向量;
S6、相似性識別結果,將S5中獲得的物料記錄的互異特征向量輸入訓練完畢的概率神經網絡分類器,如果概率神經網絡分類器的輸出結果為1,表示兩個物料記錄在語義表達上存在差異,如果概率神經網絡分類器的輸出結果為0,則表示兩個物料記錄在語義表達上相同。
2.根據權利要求1所述的一種基于互異特征向量的重復物料實體識別方法,其特征在于:所述S2之前,還對物料數據二維表中的物料名稱字段采用數據倒置算法對所有物料記錄的物料名稱字段進行數據倒置操作,并將將倒置后的物料名稱字段,按照字典中的字母順序進行升序排列。
3.根據權利要求1所述的一種基于互異特征向量的重復物料實體識別方法,其特征在于:所述S2中,運用倒排索引的方法,將所有物料記錄根據物料所屬類劃分成相互獨立的記錄塊。
4.根據權利要求1所述的一種基于互異特征向量的重復物料實體識別方法,其特征在于:所述S3中,構建互異特征向量與類別向量的具體方法為,
第一步,不重復地提取一個記錄塊中的所有關鍵字集合,W={word1,word2,...,wordn},并按照字母順序升序排列;
第二步,將相互比較的記錄對表示成互異特征向量的形式,即:D(Rs,Rt)=[M1,M2,...,Mn],其中Rs和Rt表示相互比較的兩個物料實體名稱,Mi是一個0-1變量,若Mi=0,則說明wordi是兩個物料名稱的共有詞或者兩個名稱中都不包括的詞;若Mi=1,則說明wordi是兩個物料名稱的差異詞,即wordi只在Rs中或者只在Rt中出現;
第三步,構建物料類別向量,類別向量由C表示,是0-1變量,若C=1,代表兩個物料名稱語義表達上存在差異,如果C=0,則代表物料名稱語義表達相同。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國重型機械研究院股份公司,未經中國重型機械研究院股份公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110047689.3/1.html,轉載請聲明來源鉆瓜專利網。





