[發(fā)明專利]社區(qū)內(nèi)容風(fēng)險(xiǎn)評(píng)估方法及裝置在審
| 申請(qǐng)?zhí)枺?/td> | 201910221531.6 | 申請(qǐng)日: | 2019-03-22 |
| 公開(kāi)(公告)號(hào): | CN110046251A | 公開(kāi)(公告)日: | 2019-07-23 |
| 發(fā)明(設(shè)計(jì))人: | 趙智源;祝慧佳;周書(shū)恒;郭亞;徐陳虹 | 申請(qǐng)(專利權(quán))人: | 阿里巴巴集團(tuán)控股有限公司 |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35;G06F17/27;G06K9/62;G06F16/958 |
| 代理公司: | 北京國(guó)昊天誠(chéng)知識(shí)產(chǎn)權(quán)代理有限公司 11315 | 代理人: | 許振新;朱文杰 |
| 地址: | 英屬開(kāi)曼群島大開(kāi)*** | 國(guó)省代碼: | 開(kāi)曼群島;KY |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 分詞 文本 抽樣 風(fēng)險(xiǎn)評(píng)估 文本向量 社區(qū) 互聯(lián)網(wǎng)領(lǐng)域 抽樣誤差 風(fēng)險(xiǎn)數(shù)據(jù) 文本轉(zhuǎn)換 整體內(nèi)容 潛在的 構(gòu)建 減小 聚類 申請(qǐng) 遺漏 統(tǒng)計(jì) | ||
本申請(qǐng)涉及互聯(lián)網(wǎng)領(lǐng)域,公開(kāi)了一種社區(qū)內(nèi)容風(fēng)險(xiǎn)評(píng)估方法及裝置,該方法包括:對(duì)社區(qū)內(nèi)容的整體內(nèi)容文本進(jìn)行分詞,并將每一個(gè)分詞文本轉(zhuǎn)換為文本向量;對(duì)每一個(gè)文本向量聚類,構(gòu)建簇;確定每一個(gè)簇對(duì)應(yīng)的分詞文本抽樣數(shù),在每一個(gè)簇中,按照對(duì)應(yīng)的分詞文本抽樣數(shù)進(jìn)行分詞文本抽樣;在每一個(gè)簇中,判斷每一個(gè)抽樣的分詞文本是否為風(fēng)險(xiǎn)內(nèi)容,并統(tǒng)計(jì)簇的抽樣的分詞文本中,被確定為風(fēng)險(xiǎn)內(nèi)容的分詞文本的數(shù)量;根據(jù)每一個(gè)簇中,被確定為風(fēng)險(xiǎn)內(nèi)容的分詞文本的數(shù)量,確定社區(qū)內(nèi)容的風(fēng)險(xiǎn)召回指標(biāo)。本申請(qǐng)能夠確保對(duì)風(fēng)險(xiǎn)召回指標(biāo)的估計(jì)更加穩(wěn)定,減小抽樣誤差,同時(shí)能夠避免由于不容易抽到潛在的遺漏風(fēng)險(xiǎn)數(shù)據(jù)而影響準(zhǔn)確性。
技術(shù)領(lǐng)域
本申請(qǐng)涉及互聯(lián)網(wǎng)領(lǐng)域,特別涉及社區(qū)內(nèi)容安全性評(píng)估技術(shù)。
背景技術(shù)
在有大量用戶原創(chuàng)內(nèi)容(UGC)產(chǎn)生的內(nèi)容公開(kāi)社區(qū)或者平臺(tái)上的日常運(yùn)營(yíng)中,對(duì)社區(qū)展示內(nèi)容的內(nèi)容風(fēng)險(xiǎn)評(píng)估是必不可少的一環(huán)。
這里的風(fēng)險(xiǎn)指類似涉政,涉黃,違規(guī)廣告推廣等內(nèi)容。
通常我們使用風(fēng)險(xiǎn)占比來(lái)衡量社區(qū)的潔凈度是否符合要求,但由于UGC社區(qū)的內(nèi)容量巨大,對(duì)所有的內(nèi)容進(jìn)行人工審核需要耗費(fèi)巨大的人力,在實(shí)際業(yè)務(wù)是中無(wú)法實(shí)現(xiàn)的。
因此,通常情況下會(huì)對(duì)全部的UGC內(nèi)容進(jìn)行隨機(jī)抽樣,對(duì)抽樣出來(lái)的數(shù)據(jù)進(jìn)行人工標(biāo)注構(gòu)建抽樣集,并用在抽樣集計(jì)算得到的風(fēng)險(xiǎn)占比來(lái)估計(jì)整個(gè)社區(qū)的風(fēng)險(xiǎn)占比。
但是,在實(shí)際業(yè)務(wù)場(chǎng)景中真實(shí)的風(fēng)險(xiǎn)數(shù)據(jù)占比極少(例如,<1%,具體看評(píng)估的風(fēng)險(xiǎn)),又受到抽樣策略(主要為抽樣比,在實(shí)際應(yīng)用中抽樣比較低)的影響,導(dǎo)致目前存在一些問(wèn)題,例如,基于隨機(jī)抽樣集上風(fēng)險(xiǎn)占比估計(jì)特別不穩(wěn)定(即,估計(jì)指標(biāo)的方差較大)。又例如,經(jīng)常會(huì)出現(xiàn)如果抽樣數(shù)據(jù)中偶然抽到了風(fēng)險(xiǎn)數(shù)據(jù),則會(huì)因?yàn)槌闃颖容^小而高估了遺漏的風(fēng)險(xiǎn)量,導(dǎo)致估計(jì)的風(fēng)險(xiǎn)占比遠(yuǎn)遠(yuǎn)高于實(shí)際值。又或者,如果沒(méi)抽到風(fēng)險(xiǎn)數(shù)據(jù),則忽略的潛在的風(fēng)險(xiǎn)。
上文提到的隨機(jī)抽樣,即基于整個(gè)社區(qū)的內(nèi)容按照一個(gè)固定的抽樣比進(jìn)行隨機(jī)抽樣,從而基于抽樣得到的數(shù)據(jù)集計(jì)算指標(biāo)用于評(píng)估整個(gè)社區(qū)的指標(biāo)。
雖然上述方式具有邏輯簡(jiǎn)單,容易實(shí)現(xiàn)的好處,但另一方面存在以下缺點(diǎn):在風(fēng)險(xiǎn)數(shù)據(jù)極少時(shí),對(duì)風(fēng)險(xiǎn)占比指標(biāo)的估計(jì)不穩(wěn)定,抽樣誤差較大,準(zhǔn)確率不高,同時(shí)不容易抽到潛在的遺漏風(fēng)險(xiǎn)數(shù)據(jù)。
發(fā)明內(nèi)容
本申請(qǐng)的目的在于提供一種社區(qū)內(nèi)容風(fēng)險(xiǎn)評(píng)估方法及裝置,即使在風(fēng)險(xiǎn)數(shù)據(jù)極少時(shí),也能夠確保對(duì)風(fēng)險(xiǎn)占比指標(biāo)的估計(jì)更加穩(wěn)定,減小抽樣誤差,提高準(zhǔn)確率,同時(shí)能夠避免由于不容易抽到潛在的遺漏風(fēng)險(xiǎn)數(shù)據(jù)而影響準(zhǔn)確性。
為了解決上述問(wèn)題,本申請(qǐng)公開(kāi)了一種社區(qū)內(nèi)容風(fēng)險(xiǎn)評(píng)估方法,包括:
對(duì)該社區(qū)內(nèi)容的整體內(nèi)容文本進(jìn)行分詞,獲得分詞文本,并將每個(gè)分詞文本轉(zhuǎn)換為文本向量;
對(duì)每一個(gè)文本向量聚類,構(gòu)建簇,其中,所述簇中包含所述文本向量對(duì)應(yīng)的分詞文本;
確定每一個(gè)簇對(duì)應(yīng)的分詞文本抽樣數(shù),在每一個(gè)簇中,按照對(duì)應(yīng)的分詞文本抽樣數(shù)進(jìn)行分詞文本抽樣;
在每一個(gè)簇中,判斷每一個(gè)抽樣的分詞文本是否為風(fēng)險(xiǎn)內(nèi)容,并統(tǒng)計(jì)簇的抽樣的分詞文本中,被確定為風(fēng)險(xiǎn)內(nèi)容的分詞文本的數(shù)量;
根據(jù)每一個(gè)簇中,被標(biāo)記為風(fēng)險(xiǎn)內(nèi)容的分詞文本的數(shù)量,確定該社區(qū)內(nèi)容的風(fēng)險(xiǎn)召回指標(biāo)。
在一個(gè)優(yōu)選例中,將每個(gè)分詞文本轉(zhuǎn)換為文本向量的步驟中,使用預(yù)訓(xùn)練的TextCNN二分類模型。
在一個(gè)優(yōu)選例中,將每個(gè)分詞文本轉(zhuǎn)換為文本向量的步驟中,使用以下任意一種預(yù)設(shè)的模型:LSTM、word2vec、doc2vec。
在一個(gè)優(yōu)選例中,對(duì)每一個(gè)文本向量聚類,構(gòu)建簇的步驟中,使用以下任意一種算法:k-means算法、K-MEDOIDS算法、CLARANS算法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于阿里巴巴集團(tuán)控股有限公司,未經(jīng)阿里巴巴集團(tuán)控股有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910221531.6/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 金融應(yīng)用的風(fēng)險(xiǎn)評(píng)估方法及裝置
- 一種玉米高溫風(fēng)險(xiǎn)的評(píng)估預(yù)測(cè)方法
- 風(fēng)險(xiǎn)評(píng)估方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 企業(yè)業(yè)務(wù)的風(fēng)險(xiǎn)評(píng)估方法、存儲(chǔ)介質(zhì)和服務(wù)器
- 一種網(wǎng)絡(luò)安全風(fēng)險(xiǎn)評(píng)估系統(tǒng)
- 駕駛風(fēng)險(xiǎn)評(píng)估方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 賬戶風(fēng)險(xiǎn)評(píng)估方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種基于貿(mào)易的虛擬水溢出風(fēng)險(xiǎn)綜合評(píng)估方法
- 一種業(yè)務(wù)風(fēng)險(xiǎn)評(píng)估方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 植物檢疫性有害生物出入境檢驗(yàn)檢疫安全風(fēng)險(xiǎn)評(píng)估系統(tǒng)





