[發(fā)明專(zhuān)利]一種基于歷史行為共現(xiàn)的數(shù)據(jù)劃分方法及系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201810456096.0 | 申請(qǐng)日: | 2018-05-14 |
| 公開(kāi)(公告)號(hào): | CN108647730B | 公開(kāi)(公告)日: | 2020-11-24 |
| 發(fā)明(設(shè)計(jì))人: | 姜松浩;張程;趙曉芳;段東圣;杜翠蘭 | 申請(qǐng)(專(zhuān)利權(quán))人: | 中國(guó)科學(xué)院計(jì)算技術(shù)研究所 |
| 主分類(lèi)號(hào): | G06K9/62 | 分類(lèi)號(hào): | G06K9/62 |
| 代理公司: | 北京律誠(chéng)同業(yè)知識(shí)產(chǎn)權(quán)代理有限公司 11006 | 代理人: | 祁建國(guó);梁揮 |
| 地址: | 100080 北*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 歷史 行為 數(shù)據(jù) 劃分 方法 系統(tǒng) | ||
本發(fā)明涉及機(jī)器分類(lèi)領(lǐng)域,特別是一種利用歷史交互數(shù)據(jù)共現(xiàn)進(jìn)行的無(wú)人工參與的屬性劃分領(lǐng)域。本發(fā)明利用互聯(lián)網(wǎng)長(zhǎng)期的交互數(shù)據(jù)積累,從海量數(shù)據(jù)中獲取信息,根據(jù)歷史數(shù)據(jù)中多數(shù)人通過(guò)一定時(shí)間窗口內(nèi)瀏覽、點(diǎn)擊等交互行為中共同出現(xiàn)的物體、信息等,將這些物體、信息等通過(guò)無(wú)監(jiān)督的技術(shù)手段進(jìn)行歸類(lèi),從而解決物體劃分標(biāo)準(zhǔn)不統(tǒng)一、無(wú)劃分規(guī)則或標(biāo)準(zhǔn)時(shí)很難劃分、人工參與成本高的現(xiàn)有劃分的三個(gè)難題,幫助需求方節(jié)省成本、創(chuàng)造價(jià)值的同時(shí)解決劃分中遇到的問(wèn)題。
技術(shù)領(lǐng)域
本發(fā)明涉及機(jī)器分類(lèi)領(lǐng)域,特別涉及一種基于歷史行為共現(xiàn)的數(shù)據(jù)劃分方法及系統(tǒng)。
背景技術(shù)
屬性劃分是指利用某一屬性或某些屬性將總體分成部分的過(guò)程。屬性劃分是很好的人工智能的應(yīng)用場(chǎng)景,也是最早的人工智能技術(shù)落地的應(yīng)用場(chǎng)景。屬性劃分在我們?nèi)丈仙钪蟹浅3R?jiàn),很多時(shí)候我們不自覺(jué)將不同物體進(jìn)行劃分,例如我們將蘋(píng)果劃分為水果,將菠菜劃分為蔬菜,或者我們?cè)诳葱侣剷r(shí)不由自主的按照新聞內(nèi)容將新聞劃分為體育新聞、財(cái)經(jīng)新聞、社會(huì)新聞等等。
利用自身屬性對(duì)物體或者信息等進(jìn)行相應(yīng)的劃分具有廣泛的需求和應(yīng)用,例如門(mén)戶(hù)網(wǎng)站會(huì)利用分類(lèi)器將新聞內(nèi)容按照內(nèi)容劃分為不同類(lèi)型,郵箱會(huì)利用訓(xùn)練好的分類(lèi)器根據(jù)郵件內(nèi)容將郵件分為垃圾郵件、廣告郵件等。利用人工智能技術(shù)手段對(duì)物體或者信息進(jìn)行劃分可以減少人工成本,對(duì)企業(yè)有良好的經(jīng)濟(jì)作用。
劃分通俗來(lái)講就是按照某種規(guī)則、根據(jù)或原則,將整體分為幾個(gè)部分,現(xiàn)階段劃分的方法有如下幾類(lèi):
現(xiàn)有技術(shù)一:基于規(guī)則的人工劃分,主要是根據(jù)不同的劃分需要按照用途、適用人群、使用范圍等規(guī)則劃分,這種方式普遍適用性較強(qiáng),但存在劃分速度慢,劃分失誤率高,人工成本高等問(wèn)題。
現(xiàn)有技術(shù)二:基于人工標(biāo)注類(lèi)別、特征的有監(jiān)督的機(jī)器分類(lèi)劃分方式,有監(jiān)督模型是指用已知某種或某些特性的樣本作為訓(xùn)練集,以建立一個(gè)數(shù)學(xué)模型,再用已建立的模型來(lái)預(yù)測(cè)未知樣本,此種方法稱(chēng)為有監(jiān)督學(xué)習(xí)。機(jī)器分類(lèi)模型發(fā)展和演變?nèi)遮叧墒旌头€(wěn)定,有多種分類(lèi)器,例如分類(lèi)模型的支持向量機(jī)(SVM)、K近鄰、邏輯回歸(LR)、人工神經(jīng)網(wǎng)絡(luò)等等在基于人工標(biāo)注和人工特征提取的前提下在不同數(shù)據(jù)和應(yīng)用場(chǎng)景下表現(xiàn)出不俗的表現(xiàn)。
該方法的通常技術(shù)是通過(guò)人工標(biāo)注類(lèi)別同時(shí)按照人為的方式將部分內(nèi)容進(jìn)行類(lèi)別標(biāo)注,同時(shí)對(duì)每個(gè)物體、信息進(jìn)行屬性、特征標(biāo)注,利用標(biāo)注數(shù)據(jù)對(duì)分類(lèi)模型進(jìn)行訓(xùn)練,然后將訓(xùn)練成熟的分類(lèi)器用于物體、信息等內(nèi)容的劃分,通常分類(lèi)器為專(zhuān)屬模型,針對(duì)不同的劃分內(nèi)容需要重新訓(xùn)練分類(lèi)器。
這種方式隨著技術(shù)的不斷成熟,由于其減少人工成本,減少失誤率,劃分速度大幅度提升的優(yōu)勢(shì),越來(lái)越多的傳統(tǒng)業(yè)務(wù)用到機(jī)器劃分方法,例如文本分類(lèi)、情感分析、主題劃分等等。
現(xiàn)有技術(shù)三:基于人工特征提取的相似性機(jī)器聚類(lèi)劃分方式,作為無(wú)監(jiān)督的劃分方法可以減少人工成本,也是一種常見(jiàn)的劃分方法。無(wú)監(jiān)督學(xué)習(xí)即與有監(jiān)督對(duì)立,通常是在類(lèi)別沒(méi)有被標(biāo)注的訓(xùn)練樣本中來(lái)解決各種問(wèn)題的方法。聚類(lèi)是一種常見(jiàn)的機(jī)器學(xué)習(xí)中的無(wú)監(jiān)督學(xué)習(xí)方法,聚類(lèi)方法依照不同的計(jì)算方法可以分為劃分方法、基于密度的方法、層次方法、基于網(wǎng)格的方法等等,常見(jiàn)的算法有基于劃分的K-Means算法、基于密度的DBSCAN算法、基于層次劃分的CHAMELEON算法等等。
這種方式盡管減少了有監(jiān)督的分類(lèi)劃分方式的人工類(lèi)別標(biāo)注和模型訓(xùn)練過(guò)程,但由于特征的記錄和提取仍然采用人工的方式。這種方式應(yīng)用場(chǎng)景也很多例如:異常檢測(cè)、輿情分析等等。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于中國(guó)科學(xué)院計(jì)算技術(shù)研究所,未經(jīng)中國(guó)科學(xué)院計(jì)算技術(shù)研究所許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810456096.0/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書(shū)寫(xiě)字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫(huà)組成的,而且每個(gè)筆畫(huà)表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 過(guò)濾以及監(jiān)控程序的行為的方法
- 數(shù)據(jù)挖掘的方法和裝置
- 網(wǎng)絡(luò)異常行為檢測(cè)方法及檢測(cè)裝置
- 基于大數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘的異常行為檢測(cè)方法和系統(tǒng)
- 用于檢測(cè)用戶(hù)行為的方法和裝置
- 行為數(shù)據(jù)分析方法及裝置
- 一種基于網(wǎng)絡(luò)的行為教育方法
- 網(wǎng)絡(luò)行為分類(lèi)方法、設(shè)備、存儲(chǔ)介質(zhì)及裝置
- 一種在線支付業(yè)務(wù)行為的異常檢測(cè)方法、裝置及電子設(shè)備
- 行為采集方法及系統(tǒng)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





