[發(fā)明專利]一種特征抽取方法和裝置有效
| 申請?zhí)枺?/td> | 201410013846.9 | 申請日: | 2014-01-13 |
| 公開(公告)號(hào): | CN103700011B | 公開(公告)日: | 2016-11-23 |
| 發(fā)明(設(shè)計(jì))人: | 羅辛;夏云霓;陳鵬;吳磊 | 申請(專利權(quán))人: | 重慶大學(xué);成都國科海博信息技術(shù)股份有限公司 |
| 主分類號(hào): | G06Q30/02 | 分類號(hào): | G06Q30/02;G06F17/30 |
| 代理公司: | 成都行之專利代理事務(wù)所(普通合伙) 51220 | 代理人: | 梁田 |
| 地址: | 404100 *** | 國省代碼: | 重慶;50 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 特征 抽取 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)數(shù)據(jù)處理領(lǐng)域,尤其涉及大數(shù)據(jù)環(huán)境中特征抽取方法和裝置。
背景技術(shù)
現(xiàn)代大型信息系統(tǒng),尤其是運(yùn)營較為成功的商業(yè)系統(tǒng),如大型電子商務(wù)系統(tǒng)、搜索系統(tǒng)、社會(huì)網(wǎng)絡(luò)服務(wù)系統(tǒng),其用戶數(shù)量和信息數(shù)量十分巨大。在此類系統(tǒng)中,用戶的各種客觀歷史行為,如點(diǎn)擊、瀏覽、評(píng)論、搜索等等,隨著系統(tǒng)運(yùn)營時(shí)間的積累,會(huì)匯集成為龐大的用戶歷史行為數(shù)據(jù)集,數(shù)據(jù)量至少在TB量級(jí),形成典型的大數(shù)據(jù)環(huán)境。在此類環(huán)境中,一種典型的數(shù)據(jù)描述方式是使用用戶-項(xiàng)目歷史行為統(tǒng)計(jì)矩陣,該矩陣中的每一行對應(yīng)于一個(gè)特定用戶;每一列對應(yīng)于一個(gè)特定項(xiàng)目,其中項(xiàng)目指系統(tǒng)中任何可能由用戶操作的客觀物體,如新聞、圖片、商品等等;每一個(gè)矩陣元素對應(yīng)于一個(gè)特定用戶對一個(gè)特定項(xiàng)目的歷史行為量化數(shù)據(jù),該數(shù)據(jù)是使用該特定用戶對該特定項(xiàng)目的客觀歷史行為數(shù)據(jù),利用符合自然規(guī)律的數(shù)學(xué)統(tǒng)計(jì)模型進(jìn)行量化計(jì)算構(gòu)成。大型商業(yè)系統(tǒng)中,用戶和項(xiàng)目數(shù)量十分巨大,因此,其對應(yīng)的用戶-項(xiàng)目歷史行為統(tǒng)計(jì)矩陣也是十分巨大的。同時(shí),在通常情況下,一個(gè)用戶不可能窮盡瀏覽所有的項(xiàng)目,一個(gè)項(xiàng)目也不可能被所有的用戶點(diǎn)擊;因此,一般而言,用戶-項(xiàng)目歷史行為統(tǒng)計(jì)矩陣中的已知數(shù)據(jù)往往遠(yuǎn)遠(yuǎn)少于未知數(shù)據(jù),即,用戶-項(xiàng)目歷史行為統(tǒng)計(jì)矩陣是極端稀疏的。
在信息系統(tǒng)運(yùn)營過程中,基于用戶-項(xiàng)目歷史行為統(tǒng)計(jì)矩陣中的已知數(shù)據(jù),從中抽取用戶行為特征,可以對用戶的行為規(guī)律進(jìn)行有效的分析,從而為系統(tǒng)在運(yùn)營過程中的信息組織和營銷策略的制訂提供重要的依據(jù)。在用戶行為特征的抽取過程中,如何保持用戶行為特征的非負(fù)性,是一個(gè)關(guān)鍵問題。這是因?yàn)榉秦?fù)的用戶特征更加符合信息系統(tǒng)中用戶行為的自然規(guī)律,能夠更好地對用戶行為進(jìn)行表征。
非負(fù)特征抽取多用于計(jì)算機(jī)視覺領(lǐng)域,其基本特點(diǎn)是對于給定的圖形或者圖像,將其視為一個(gè)滿秩矩陣,并對其進(jìn)行非負(fù)條件限制下的矩陣因式分解,從而抽取出該圖形或圖像的局部物體特征。但是,信息系統(tǒng)中的非負(fù)用戶行為提取問題,與計(jì)算機(jī)視覺中的非負(fù)物體特征抽取問題,具備很大的區(qū)別。這是因?yàn)橛?jì)算機(jī)視覺中的非負(fù)物體特征抽取所處理的圖形、圖像所轉(zhuǎn)化的矩陣是滿秩矩陣,且不具備缺失值,此類矩陣的非負(fù)矩陣因式分解問題可以借助常規(guī)的矩陣迭代運(yùn)算進(jìn)行處理;而信息系統(tǒng)中的非負(fù)用戶行為抽取問題,所處理的用戶-項(xiàng)目歷史行為統(tǒng)計(jì)矩陣,通常情況下是極端稀疏的,其中具備大量的缺失值,無法使用傳統(tǒng)的矩陣迭代運(yùn)算進(jìn)行處理。因此,如何針對大型信息系統(tǒng)中的、具備大量缺失值的用戶-項(xiàng)目歷史行為統(tǒng)計(jì)矩陣,進(jìn)行非負(fù)條件限制下的矩陣因式分解,抽取出能夠保證對已知數(shù)據(jù)的良好還原性和非負(fù)性,能夠良好地表征用戶行為規(guī)律的用戶行為特征,是對現(xiàn)代大型信息系統(tǒng)所產(chǎn)生的海量數(shù)據(jù)進(jìn)行分析所需要處理的一個(gè)關(guān)鍵問題。
綜上所述,本申請發(fā)明人在實(shí)現(xiàn)本申請實(shí)施例中發(fā)明技術(shù)方案的過程中,發(fā)現(xiàn)上述技術(shù)至少存在如下技術(shù)問題:
在現(xiàn)有技術(shù)中,由于現(xiàn)在現(xiàn)有的信息系統(tǒng)中進(jìn)行非負(fù)用戶行為抽取時(shí),所處理的用戶-項(xiàng)目歷史行為統(tǒng)計(jì)矩陣,通常情況下是極端稀疏的,其中具備大量的缺失值,無法使用傳統(tǒng)的矩陣迭代運(yùn)算進(jìn)行處理,所以,現(xiàn)有技術(shù)存在不能抽取出能夠保證對已知數(shù)據(jù)的良好還原性和非負(fù)性,不能夠良好地表征用戶行為規(guī)律的用戶行為特征的技術(shù)問題,進(jìn)而不能對用戶的行為規(guī)律進(jìn)行有效的分析,從而不能為系統(tǒng)在運(yùn)營過程中的信息組織和營銷策略的制訂提供重要的依據(jù)。
發(fā)明內(nèi)容
本申請實(shí)施例通過提供一種特征抽取方法和裝置,解決了現(xiàn)有技術(shù)中存在不能抽取出能夠保證對已知數(shù)據(jù)的良好還原性和非負(fù)性,不能夠良好地表征用戶行為規(guī)律的用戶行為特征的技術(shù)問題,實(shí)現(xiàn)了能抽取出能夠保證對已知數(shù)據(jù)的良好還原性和非負(fù)性,能夠良好地表征用戶行為規(guī)律的用戶行為特征的技術(shù)效果。
為解決上述技術(shù)問題,本申請實(shí)施例一方面提供了一種特征抽取方法,應(yīng)用于一電子設(shè)備中,所述方法包括:
所述電子設(shè)備接收來自服務(wù)器所采集的用戶-項(xiàng)目歷史行為統(tǒng)計(jì)數(shù)據(jù);
將所述統(tǒng)計(jì)數(shù)據(jù)存儲(chǔ)在存儲(chǔ)模塊中;
對所述用戶-項(xiàng)目歷史行為統(tǒng)計(jì)數(shù)據(jù)進(jìn)行非負(fù)用戶行為特征抽取,獲得特征抽取數(shù)據(jù);
將所述特征抽取數(shù)據(jù)存儲(chǔ)在所述存儲(chǔ)模塊中。
其中,所述對所述統(tǒng)計(jì)數(shù)據(jù)進(jìn)行特征抽取,具體為:對所述統(tǒng)計(jì)數(shù)據(jù)進(jìn)行處理稀疏矩陣的非負(fù)用戶特征抽取。
進(jìn)一步地,所述對所述統(tǒng)計(jì)數(shù)據(jù)進(jìn)行特征抽取,獲得特征抽取數(shù)據(jù),具體包括:
首先,對特征抽取過程所需要的參數(shù)進(jìn)行初始化獲得第一參數(shù);
然后,基于所述統(tǒng)計(jì)數(shù)據(jù)和所述第一參數(shù),訓(xùn)練構(gòu)造特征數(shù)據(jù);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于重慶大學(xué);成都國科海博信息技術(shù)股份有限公司,未經(jīng)重慶大學(xué);成都國科海博信息技術(shù)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410013846.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測目的的數(shù)據(jù)處理系統(tǒng)或方法;其他類目不包含的專門適用于行政、商業(yè)、金融、管理、監(jiān)督或預(yù)測目的的處理系統(tǒng)或方法
G06Q30-00 商業(yè),例如購物或電子商務(wù)
G06Q30-02 .行銷,例如,市場研究與分析、調(diào)查、促銷、廣告、買方剖析研究、客戶管理或獎(jiǎng)勵(lì);價(jià)格評(píng)估或確定
G06Q30-04 .簽單或開發(fā)票
G06Q30-06 .購買、出售或租賃交易
G06Q30-08 ..拍賣
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測試終端的測試方法
- 一種服裝用人體測量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





