[發(fā)明專(zhuān)利]社區(qū)內(nèi)容風(fēng)險(xiǎn)評(píng)估方法及裝置在審
| 申請(qǐng)?zhí)枺?/td> | 201910221531.6 | 申請(qǐng)日: | 2019-03-22 |
| 公開(kāi)(公告)號(hào): | CN110046251A | 公開(kāi)(公告)日: | 2019-07-23 |
| 發(fā)明(設(shè)計(jì))人: | 趙智源;祝慧佳;周書(shū)恒;郭亞;徐陳虹 | 申請(qǐng)(專(zhuān)利權(quán))人: | 阿里巴巴集團(tuán)控股有限公司 |
| 主分類(lèi)號(hào): | G06F16/35 | 分類(lèi)號(hào): | G06F16/35;G06F17/27;G06K9/62;G06F16/958 |
| 代理公司: | 北京國(guó)昊天誠(chéng)知識(shí)產(chǎn)權(quán)代理有限公司 11315 | 代理人: | 許振新;朱文杰 |
| 地址: | 英屬開(kāi)曼群島大開(kāi)*** | 國(guó)省代碼: | 開(kāi)曼群島;KY |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 分詞 文本 抽樣 風(fēng)險(xiǎn)評(píng)估 文本向量 社區(qū) 互聯(lián)網(wǎng)領(lǐng)域 抽樣誤差 風(fēng)險(xiǎn)數(shù)據(jù) 文本轉(zhuǎn)換 整體內(nèi)容 潛在的 構(gòu)建 減小 聚類(lèi) 申請(qǐng) 遺漏 統(tǒng)計(jì) | ||
1.一種社區(qū)內(nèi)容風(fēng)險(xiǎn)評(píng)估方法,其特征在于,包括:
對(duì)所述社區(qū)內(nèi)容的整體內(nèi)容文本進(jìn)行分詞,獲得分詞文本,并將每一個(gè)所述分詞文本轉(zhuǎn)換為文本向量;
對(duì)每一個(gè)所述文本向量聚類(lèi),構(gòu)建簇,其中,每一個(gè)所述簇中包含所述文本向量對(duì)應(yīng)的分詞文本;
確定每一個(gè)簇對(duì)應(yīng)的分詞文本抽樣數(shù),并在每一個(gè)所述簇中,按照對(duì)應(yīng)的所述分詞文本抽樣數(shù)進(jìn)行分詞文本抽樣;
在每一個(gè)所述簇中,判斷每一個(gè)抽樣的分詞文本是否為風(fēng)險(xiǎn)內(nèi)容,并統(tǒng)計(jì)被確定為風(fēng)險(xiǎn)內(nèi)容的分詞文本的數(shù)量;
根據(jù)每一個(gè)所述簇中,被確定為風(fēng)險(xiǎn)內(nèi)容的分詞文本的數(shù)量,確定所述社區(qū)內(nèi)容的風(fēng)險(xiǎn)召回指標(biāo)。
2.如權(quán)利要求1的方法,其特征在于,所述將每一個(gè)分詞后的所述分詞文本轉(zhuǎn)換為文本向量的步驟中,使用預(yù)訓(xùn)練的TextCNN二分類(lèi)模型。
3.如權(quán)利要求1的方法,其特征在于,所述將每一個(gè)分詞后的所述分詞文本轉(zhuǎn)換為文本向量的步驟中,使用以下任意一種預(yù)設(shè)的模型:LSTM、word2vec、doc2vec。
4.如權(quán)利要求1的方法,其特征在于,所述對(duì)每一個(gè)所述文本向量聚類(lèi),構(gòu)建簇的步驟中,使用以下任意一種算法:k-means算法、K-MEDOIDS算法、CLARANS算法。
5.如權(quán)利要求1的方法,其特征在于,所述確定每一個(gè)簇對(duì)應(yīng)的分詞文本抽樣數(shù)的步驟中,使用以下任意一種方式確定所述分詞文本抽樣數(shù):分層定比、非比例分配法、奈曼法。
6.如權(quán)利要求5的方法,其特征在于,所述確定每一個(gè)簇對(duì)應(yīng)的分詞文本抽樣數(shù)的步驟中,如果所述簇包含的分詞文本的數(shù)量在所述社區(qū)內(nèi)容的整體內(nèi)容文本對(duì)應(yīng)的分詞文本的總數(shù)中所占的比例低于預(yù)設(shè)的閾值,采用非比例分配法確定所述簇對(duì)應(yīng)的分詞文本抽樣數(shù)。
7.如權(quán)利要求6的方法,其特征在于,所述對(duì)整體內(nèi)容文本進(jìn)行分詞,獲得分詞后的所述分詞文本的步驟之前,還包括:
對(duì)所述整體內(nèi)容文本進(jìn)行預(yù)處理。
8.一種社區(qū)內(nèi)容風(fēng)險(xiǎn)評(píng)估裝置,其特征在于,包括:
文本向量模塊,用于對(duì)所述社區(qū)內(nèi)容的整體內(nèi)容文本進(jìn)行分詞,獲得分詞文本,并將每一個(gè)所述分詞文本轉(zhuǎn)換為文本向量;
聚類(lèi)模塊,用于對(duì)每一個(gè)所述文本向量聚類(lèi),構(gòu)建簇,其中,所述簇中包含所述文本向量對(duì)應(yīng)的分詞文本;
抽樣模塊,用于確定每一個(gè)所述簇對(duì)應(yīng)的分詞文本抽樣數(shù),在每一個(gè)所述簇中,按照對(duì)應(yīng)的分詞文本抽樣數(shù)進(jìn)行分詞文本抽樣;
風(fēng)險(xiǎn)內(nèi)容統(tǒng)計(jì)模塊,用于在每一個(gè)所述簇中,判斷每一個(gè)抽樣的分詞文本是否為風(fēng)險(xiǎn)內(nèi)容,并統(tǒng)計(jì)被確定為風(fēng)險(xiǎn)內(nèi)容的分詞文本的數(shù)量;
風(fēng)險(xiǎn)召回指標(biāo)模塊,用于根據(jù)每一個(gè)所述簇中,被確定為風(fēng)險(xiǎn)內(nèi)容的分詞文本的數(shù)量,確定所述社區(qū)內(nèi)容的風(fēng)險(xiǎn)召回指標(biāo)。
9.一種社區(qū)內(nèi)容風(fēng)險(xiǎn)評(píng)估設(shè)備,其特征在于,包括:
存儲(chǔ)器,用于存儲(chǔ)計(jì)算機(jī)可執(zhí)行指令;以及,
處理器,用于在執(zhí)行計(jì)算機(jī)可執(zhí)行指令時(shí)實(shí)現(xiàn)如權(quán)利要求1至7中任意一項(xiàng)的方法中的步驟。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令,計(jì)算機(jī)可執(zhí)行指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至7中任意一項(xiàng)的方法中的步驟。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于阿里巴巴集團(tuán)控股有限公司,未經(jīng)阿里巴巴集團(tuán)控股有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910221531.6/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 金融應(yīng)用的風(fēng)險(xiǎn)評(píng)估方法及裝置
- 一種玉米高溫風(fēng)險(xiǎn)的評(píng)估預(yù)測(cè)方法
- 風(fēng)險(xiǎn)評(píng)估方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 企業(yè)業(yè)務(wù)的風(fēng)險(xiǎn)評(píng)估方法、存儲(chǔ)介質(zhì)和服務(wù)器
- 一種網(wǎng)絡(luò)安全風(fēng)險(xiǎn)評(píng)估系統(tǒng)
- 駕駛風(fēng)險(xiǎn)評(píng)估方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 賬戶(hù)風(fēng)險(xiǎn)評(píng)估方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種基于貿(mào)易的虛擬水溢出風(fēng)險(xiǎn)綜合評(píng)估方法
- 一種業(yè)務(wù)風(fēng)險(xiǎn)評(píng)估方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 植物檢疫性有害生物出入境檢驗(yàn)檢疫安全風(fēng)險(xiǎn)評(píng)估系統(tǒng)





