[發(fā)明專利]一種自動去除樣本標記噪聲的方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202010046887.3 | 申請日: | 2020-01-16 |
| 公開(公告)號: | CN111259339A | 公開(公告)日: | 2020-06-09 |
| 發(fā)明(設計)人: | 方軍鵬 | 申請(專利權(quán))人: | 支付寶(杭州)信息技術(shù)有限公司 |
| 主分類號: | G06F17/18 | 分類號: | G06F17/18;G06K9/62 |
| 代理公司: | 成都七星天知識產(chǎn)權(quán)代理有限公司 51253 | 代理人: | 楊永梅 |
| 地址: | 310000 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 自動 去除 樣本 標記 噪聲 方法 系統(tǒng) | ||
1.一種自動去除樣本標記噪聲的方法,包括:
獲取多個樣本,所述多個樣本合計包含M個不同標記,M為≥1的整數(shù);
初始化所述樣本包含所述M個不同標記中任一標記的概率,并基于初始化后的結(jié)果構(gòu)建初始置信度矩陣;
基于權(quán)重矩陣A迭代更新所述初始置信度矩陣,得到第一置信度矩陣;所述權(quán)重矩陣A中元素代表由所述多個樣本中第i個樣本與第j個樣本之間的相似度確定的第一權(quán)重;
將權(quán)重向量B與所述第一置信度矩陣相乘得到所述樣本的第二置信度向量;所述權(quán)重向量B中元素代表由所述樣本與其他樣本的相似度占比確定的第二權(quán)重;
基于預設條件從所述第二置信度向量中確定所述樣本的噪聲標記并去除。
2.如權(quán)利要求1所述的方法,所述基于權(quán)重矩陣A迭代更新所述初始置信度矩陣,得到第一置信度矩陣包括:
將迭代(t-1)次得到的中間置信度矩陣與所述權(quán)重矩陣A相乘,將相乘后的結(jié)果與所述初始置信度矩陣比例相加,得到迭代t次得到的中間置信度,t為≥1的整數(shù);
直到迭代得到的中間置信度矩陣滿足預設條件,迭代結(jié)束,并將迭代結(jié)束后得到的置信度矩陣作為所述第一置信度矩陣。
3.如權(quán)利要求1所述的方法,所述初始化所述樣本包含所述M個不同標記中任一標記的概率,并基于初始化后的結(jié)果構(gòu)建初始置信度矩陣包括:
當所述M個不同標記中任一標記為所述樣本的候選標記時,將所述概率初始化為1/N,N為所述樣本包含的候選標記的個數(shù);所述候選標記表示所述樣本存在所述標記;
當所述M個不同標記中任一標記不為所述樣本的候選標記時,將所述概率初始化為0。
4.如權(quán)利要求1所述的方法,通過距離度量所述相似度。
5.如權(quán)利要求1所述的方法,所述第二權(quán)重與所述相似度占比負相關。
6.如權(quán)利要求1所述的方法,在將所述權(quán)重向量B乘以所述第一置信度矩陣之前,將所述第一置信度矩陣中的置信度歸一化至第一預設數(shù)值范圍內(nèi)。
7.如權(quán)利要求1所述的方法,基于所述權(quán)重矩陣A迭代更新所述初始置信度矩陣之前,基于最小二乘法優(yōu)化所述權(quán)重矩陣A中的權(quán)重。
8.如權(quán)利要求1所述的方法,基于所述權(quán)重矩陣A迭代更新所述初始置信度矩陣之前,將所述權(quán)重矩陣A中的權(quán)重歸一化至第二預設數(shù)值范圍內(nèi)。
9.如權(quán)利要求1所述的方法,所述樣本為實體對象的數(shù)據(jù)。
10.如權(quán)利要求1所述的方法,所述實體對象數(shù)據(jù)為智能客服數(shù)據(jù)。
11.一種自動去除樣本標記噪聲的系統(tǒng),包括:
樣本獲取模塊,用于獲取多個樣本,所述多個樣本合計包含M個不同的標記,M為≥1的整數(shù);
置信度初始化模塊,用于初始化所述樣本包含所述M個不同標記中任一標記的概率,并基于初始化后的結(jié)果構(gòu)建初始置信度矩陣;
置信度優(yōu)化模塊,用于基于權(quán)重矩陣A迭代更新所述初始置信度矩陣,得到第一置信度矩陣;所述權(quán)重矩陣A中元素代表由所述多個樣本中第i個樣本與第j個樣本之間的相似度確定的第一權(quán)重;
置信度投票模塊,用于將權(quán)重向量B與所述第一置信度矩陣相乘得到所述樣本的第二置信度向量;所述權(quán)重矩陣B中元素代表由所述樣本與其他樣本的相似度占比確定的第二權(quán)重;
標記去噪模塊,用于基于預設條件從所述第二置信度向量中確定所述樣本的噪聲標記并去除。
12.如權(quán)利要求11所述的系統(tǒng),所述置信度優(yōu)化模塊用于:
將迭代(t-1)次得到的中間置信度矩陣與所述權(quán)重矩陣A相乘,將相乘后的結(jié)果與所述初始置信度矩陣比例相加,得到迭代t次得到的中間置信度,t為大于等于1的整數(shù);
直到迭代得到的中間置信度矩陣滿足預設條件,迭代結(jié)束,并將迭代結(jié)束后得到的置信度矩陣作為所述第一置信度矩陣。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于支付寶(杭州)信息技術(shù)有限公司,未經(jīng)支付寶(杭州)信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010046887.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





