[發(fā)明專利]信息處理裝置和信息處理方法在審
| 申請?zhí)枺?/td> | 201610405971.3 | 申請日: | 2016-06-08 |
| 公開(公告)號: | CN107480687A | 公開(公告)日: | 2017-12-15 |
| 發(fā)明(設(shè)計(jì))人: | 侯翠琴;夏迎炬;徐卓然 | 申請(專利權(quán))人: | 富士通株式會社 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 北京集佳知識產(chǎn)權(quán)代理有限公司11227 | 代理人: | 王萍,陳煒 |
| 地址: | 日本神*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 信息處理 裝置 方法 | ||
技術(shù)領(lǐng)域
本公開涉及信息處理裝置和信息處理方法,更具體地,涉及用于進(jìn)行機(jī)器學(xué)習(xí)的信息處理裝置和信息處理方法。
背景技術(shù)
總體上,機(jī)器學(xué)習(xí)技術(shù)是一種使機(jī)器利用數(shù)據(jù)而非利用指令進(jìn)行操作的技術(shù)。更具體地,機(jī)器學(xué)習(xí)技術(shù)可被認(rèn)為是一種使具備處理和存儲功能的機(jī)器對已有的數(shù)據(jù)進(jìn)行處理以獲得某種模型,并且利用所述模型對未來的數(shù)據(jù)進(jìn)行預(yù)測的技術(shù)。
目前,機(jī)器學(xué)習(xí)技術(shù)作為人工智能技術(shù)的一個重要分支,已被廣泛地應(yīng)用于模式識別、統(tǒng)計(jì)學(xué)習(xí)、數(shù)據(jù)挖掘、計(jì)算機(jī)視覺、語音識別、自然語言處理等眾多領(lǐng)域。
發(fā)明內(nèi)容
在下文中將給出關(guān)于本公開的簡要概述,以便提供關(guān)于本公開的某些方面的基本理解。應(yīng)當(dāng)理解,這個概述并不是關(guān)于本公開的窮舉性概述。它并不是意圖確定本公開的關(guān)鍵或重要部分,也不是意圖限定本公開的范圍。其目的僅僅是以簡化的形式給出某些概念,以此作為稍后論述的更詳細(xì)描述的前序。
在機(jī)器學(xué)習(xí)技術(shù)中,對已有的數(shù)據(jù)進(jìn)行的處理通常是分類處理。分類處理可被分為監(jiān)督分類處理和非監(jiān)督分類處理。
監(jiān)督分類處理要求已有的數(shù)據(jù)具有標(biāo)簽以作為訓(xùn)練數(shù)據(jù),基于這些標(biāo)簽對訓(xùn)練數(shù)據(jù)進(jìn)行分類以構(gòu)造分類模型,并且基于所構(gòu)造的分類模型對不具有標(biāo)簽的未來的數(shù)據(jù)進(jìn)行預(yù)測。
已提出了許多監(jiān)督分類模型,諸如決策樹、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)、邏輯回歸模型、樸素貝葉斯分類器等。然而,大部分監(jiān)督分類模型假設(shè)數(shù)據(jù)是獨(dú)立的并且具有相同的分布,因而沒有考慮數(shù)據(jù)的結(jié)構(gòu)以及數(shù)據(jù)之間的關(guān)系。
注意,在本文中術(shù)語“監(jiān)督分類模型”和“監(jiān)督模型”可互換地使用,并且術(shù)語“監(jiān)督分類處理”和“監(jiān)督處理”可互換地使用。
非監(jiān)督分類處理不要求已有的數(shù)據(jù)具有標(biāo)簽,而是僅根據(jù)已有的數(shù)據(jù)的特征對已有的數(shù)據(jù)的相似度進(jìn)行分析,從而將已有的數(shù)據(jù)分成不同的類以構(gòu)造聚類模型。因而,非監(jiān)督分類處理還可被稱為聚類處理。
注意,在本文中術(shù)語“非監(jiān)督分類模型”和“聚類模型”可互換地使用,并且術(shù)語“非監(jiān)督分類處理”和“聚類處理”可互換地使用。
通常,較之僅使用一種分類模型而言,將不同的分類模型融合在一起,具體地,將監(jiān)督模型、聚類模型或者監(jiān)督模型和聚類模型融合在一起,可以獲得更優(yōu)良和更穩(wěn)定的性能。融合有監(jiān)督模型和聚類模型的分類模型可以被稱為半監(jiān)督分類模型。
將監(jiān)督模型和聚類模型融合在一起的半監(jiān)督分類系統(tǒng)可以被分成兩種類型的系統(tǒng),其中一種類型的系統(tǒng)基于二分圖,而另一種類型的系統(tǒng)基于圖。
對于基于二分圖的系統(tǒng),設(shè)定集合U和集合V,其中集合U中的每個節(jié)點(diǎn)表示聚類或類,并且集合V中的每個節(jié)點(diǎn)表示實(shí)例(即,測試樣本)。隨后,基于集合U和V構(gòu)造二分圖,其中集合U中的節(jié)點(diǎn)與集合V中的節(jié)點(diǎn)之間的連線表示相應(yīng)的實(shí)例屬于相應(yīng)的聚類或類。隨后,通過使聚類結(jié)果和分類結(jié)果之間的一致性最大化來將監(jiān)督模型和聚類模型融合在一起,從而改進(jìn)預(yù)測結(jié)果。
對于基于圖的系統(tǒng),通過對聚類模型進(jìn)行融合以構(gòu)造實(shí)例的相似度圖,并且隨后基于所構(gòu)造的相似度圖與監(jiān)督模型的分類結(jié)果融合。
本公開的目的在于提供一種通過融合監(jiān)督模型和聚類模型的半監(jiān)督分類方法進(jìn)行機(jī)器學(xué)習(xí)的信息處理裝置和信息處理方法。通過對監(jiān)督模型和聚類模型進(jìn)行融合,可以獲得更優(yōu)良和更穩(wěn)定的預(yù)測性能。這種方法可被稱為半監(jiān)督模型融合方法。
本發(fā)明人發(fā)現(xiàn),通過相結(jié)合地考慮一小部分訓(xùn)練數(shù)據(jù)的標(biāo)簽以及數(shù)據(jù)的結(jié)構(gòu),能夠獲得較高的預(yù)測精度。因而,可以將監(jiān)督模型、聚類模型和一小部分訓(xùn)練數(shù)據(jù)的標(biāo)簽融合在一起。具體地,首先通過融合聚類模型的聚類結(jié)果來構(gòu)造相似度圖,隨后基于該相似度圖將監(jiān)督模型的預(yù)測結(jié)果和一小部分訓(xùn)練數(shù)據(jù)的標(biāo)簽融合在一起。使融合結(jié)果在相似度圖上是平滑的并且不會過分偏離監(jiān)督模型的融合結(jié)果和一小部分訓(xùn)練數(shù)據(jù)的標(biāo)簽。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于富士通株式會社,未經(jīng)富士通株式會社許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610405971.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





