[發(fā)明專利]一種推薦系統(tǒng)及多算法融合推薦處理流程有效
| 申請(qǐng)?zhí)枺?/td> | 202010522860.7 | 申請(qǐng)日: | 2020-06-10 |
| 公開(公告)號(hào): | CN111695035B | 公開(公告)日: | 2023-05-05 |
| 發(fā)明(設(shè)計(jì))人: | 王勁;周建平;任兆江 | 申請(qǐng)(專利權(quán))人: | 廣東數(shù)果科技有限公司 |
| 主分類號(hào): | G06F16/9535 | 分類號(hào): | G06F16/9535;G06F16/28;G06F16/182 |
| 代理公司: | 廣東穎聯(lián)知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44647 | 代理人: | 何卓南;鐘作亮 |
| 地址: | 510000 廣東省廣州*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 推薦 系統(tǒng) 算法 融合 處理 流程 | ||
1.一種推薦系統(tǒng),其特征在于包括有:
數(shù)據(jù)預(yù)處理模塊,解析輸入數(shù)據(jù),把輸入數(shù)據(jù)轉(zhuǎn)換成指定格式的數(shù)據(jù)特征列,然后輸出,其中,輸入數(shù)據(jù)的格式和數(shù)據(jù)特征列的格式,均通過配置文件指定;
特征轉(zhuǎn)換及模型訓(xùn)練模塊,對(duì)數(shù)據(jù)特征列進(jìn)行若干次特征轉(zhuǎn)換,轉(zhuǎn)換成所需類型和格式的樣本,然后對(duì)樣本進(jìn)行若干次模型訓(xùn)練,保存算法模型,其中,特征轉(zhuǎn)換和模型訓(xùn)練均通過配置文件指定算法和參數(shù);
模型文件保存模塊,在分布式文件系統(tǒng)上保存模型文件,保存內(nèi)容包括數(shù)據(jù)預(yù)處理模塊、特征轉(zhuǎn)換及模型訓(xùn)練模塊的處理流程和輸入輸出,以及特征轉(zhuǎn)換算法和模型訓(xùn)練算法的配置信息,并把模型文件的基礎(chǔ)信息記錄到關(guān)系數(shù)據(jù)庫中,其中,模型的基礎(chǔ)信息包括模型文件名稱、版本、保存路徑;
模型讀取模塊,鏈接對(duì)應(yīng)的關(guān)系數(shù)據(jù)庫,讀取模型基礎(chǔ)信息,根據(jù)模型基礎(chǔ)信息到分布式文件系統(tǒng)中加載對(duì)應(yīng)的模型文件,并進(jìn)行文件解析,得到完整輸入輸出信息和模型的完整參數(shù);
API服務(wù)模塊,得到加載后的模型,監(jiān)聽網(wǎng)絡(luò)端口并接收網(wǎng)絡(luò)請(qǐng)求,其中,前端發(fā)送網(wǎng)絡(luò)請(qǐng)求,請(qǐng)求文本包括模型名稱、樣本特征,API服務(wù)模塊接收網(wǎng)絡(luò)請(qǐng)求返回推薦結(jié)果到前端;
所述特征轉(zhuǎn)換及模型訓(xùn)練模塊采用多臺(tái)服務(wù)器同時(shí)進(jìn)行計(jì)算,使用通信和聚合的方式保證計(jì)算結(jié)果的正確,其中,其主服務(wù)器控制架構(gòu)包括有:數(shù)據(jù)及模型切分單元,把輸入數(shù)據(jù)按照等份大小的原則進(jìn)行切分操作,并且每份局部數(shù)據(jù)大小不超過指定數(shù)值,然后對(duì)模型進(jìn)行拆分,對(duì)計(jì)算過程采用直接復(fù)制成若干份的方式,將模型也分為若干份子模型,并且數(shù)量與數(shù)據(jù)拆分結(jié)果的數(shù)量相等;通信機(jī)制控制單元,負(fù)責(zé)把切分后的子模型和局部數(shù)據(jù),通過網(wǎng)絡(luò)的方式發(fā)送到多臺(tái)子服務(wù)器中,子服務(wù)器接收到子模型和局部數(shù)據(jù)后進(jìn)行計(jì)算,計(jì)算完畢后,把計(jì)算結(jié)果同樣通過網(wǎng)絡(luò)的方式發(fā)送到主服務(wù)器中,進(jìn)行后續(xù)處理,除此之外,計(jì)算過程中,有需要進(jìn)行聚合的操作,也是由該通信機(jī)制控制單元進(jìn)行相互之間的通信控制;數(shù)據(jù)及模型聚合單元,對(duì)計(jì)算結(jié)果進(jìn)行數(shù)據(jù)的聚合和模型的聚合,在算法訓(xùn)練的過程中,對(duì)反向傳播時(shí)的梯度進(jìn)行聚合,即把多臺(tái)子服務(wù)器的數(shù)據(jù)計(jì)算結(jié)果進(jìn)行聚合,并對(duì)主模型進(jìn)行更新,更新結(jié)果則通用通信機(jī)制控制單元向各個(gè)子模型進(jìn)行通信,使各子模型能在同時(shí)計(jì)算的過程中保證統(tǒng)一。
2.根據(jù)權(quán)利要求1所述的一種推薦系統(tǒng),其特征在于所述模型文件保存模塊采用BigDL對(duì)模型進(jìn)行序列化,生成模型文件并保存在分布式文件系統(tǒng)中,所述模型讀取模塊采用Mleap對(duì)模型文件進(jìn)行解析,生成預(yù)估模型。
3.根據(jù)權(quán)利要求1所述的一種推薦系統(tǒng),其特征在于所述特征轉(zhuǎn)換及模型訓(xùn)練模塊定時(shí)更新模型,所述API服務(wù)模塊把每次請(qǐng)求的結(jié)果保存,遇到相同請(qǐng)求時(shí)直接得到結(jié)果。
4.一種基于權(quán)利要求1-3任意一項(xiàng)所述推薦系統(tǒng)的多算法融合推薦處理流程,其特征在于依次執(zhí)法多個(gè)算法,最后進(jìn)行API服務(wù),其中,前一個(gè)算法的輸出數(shù)據(jù)為后一個(gè)算法的輸入數(shù)據(jù),每個(gè)算法都依次進(jìn)行數(shù)據(jù)預(yù)處理步驟、特征轉(zhuǎn)換和模型訓(xùn)練步驟、模型文件保存步驟、以及模型讀取步驟,其中,
數(shù)據(jù)預(yù)處理步驟:解析輸入數(shù)據(jù),把輸入數(shù)據(jù)轉(zhuǎn)換成指定格式的數(shù)據(jù)特征列,然后輸出,其中,輸入數(shù)據(jù)的格式和數(shù)據(jù)特征列的格式,均通過配置文件指定;
特征轉(zhuǎn)換和模型訓(xùn)練步驟:對(duì)數(shù)據(jù)特征列進(jìn)行若干次特征轉(zhuǎn)換,轉(zhuǎn)換成所需類型和格式的樣本,然后對(duì)樣本進(jìn)行若干次模型訓(xùn)練,保存算法模型,其中,特征轉(zhuǎn)換和模型訓(xùn)練均通過配置文件指定算法和參數(shù);
模型文件保存步驟:在分布式文件系統(tǒng)上保存模型文件,保存內(nèi)容包括數(shù)據(jù)預(yù)處理步驟和特征轉(zhuǎn)換及模型訓(xùn)練步驟的處理流程和輸入輸出,以及特征轉(zhuǎn)換算法和模型訓(xùn)練算法的配置信息,并把模型文件的基礎(chǔ)信息記錄到關(guān)系數(shù)據(jù)庫中,其中,模型的基礎(chǔ)信息包括模型文件名稱、版本、保存路徑;
模型讀取步驟:鏈接對(duì)應(yīng)的關(guān)系數(shù)據(jù)庫,讀取模型基礎(chǔ)信息,根據(jù)模型基礎(chǔ)信息到分布式文件系統(tǒng)中加載對(duì)應(yīng)的模型文件,并進(jìn)行文件解析,得到完整輸入輸出信息和模型的完整參數(shù);
API服務(wù):得到加載后的模型,監(jiān)聽網(wǎng)絡(luò)端口并接收網(wǎng)絡(luò)請(qǐng)求,其中,前端發(fā)送網(wǎng)絡(luò)請(qǐng)求,請(qǐng)求文本包括模型名稱、樣本特征,API服務(wù)模塊接收網(wǎng)絡(luò)請(qǐng)求返回推薦結(jié)果到前端。
5.一種基于權(quán)利要求1-3任意一項(xiàng)所述推薦系統(tǒng)的多算法融合推薦處理流程,其特征在于并列執(zhí)法若干個(gè)前級(jí)算法,然后將該若干個(gè)前級(jí)算法的輸出結(jié)果都輸出給同一個(gè)后級(jí)算法,最后進(jìn)行API服務(wù),其中,每個(gè)前級(jí)算法和后級(jí)算法都依次進(jìn)行數(shù)據(jù)預(yù)處理步驟、特征轉(zhuǎn)換和模型訓(xùn)練步驟、模型文件保存步驟、以及模型讀取步驟,其中,
數(shù)據(jù)預(yù)處理步驟:解析輸入數(shù)據(jù),把輸入數(shù)據(jù)轉(zhuǎn)換成指定格式的數(shù)據(jù)特征列,然后輸出,其中,輸入數(shù)據(jù)的格式和數(shù)據(jù)特征列的格式,均通過配置文件指定;
特征轉(zhuǎn)換和模型訓(xùn)練步驟:對(duì)數(shù)據(jù)特征列進(jìn)行若干次特征轉(zhuǎn)換,轉(zhuǎn)換成所需類型和格式的樣本,然后對(duì)樣本進(jìn)行若干次模型訓(xùn)練,保存算法模型,其中,特征轉(zhuǎn)換和模型訓(xùn)練均通過配置文件指定算法和參數(shù);
模型文件保存步驟:在分布式文件系統(tǒng)上保存模型文件,保存內(nèi)容包括數(shù)據(jù)預(yù)處理步驟和特征轉(zhuǎn)換及模型訓(xùn)練步驟的處理流程和輸入輸出,以及特征轉(zhuǎn)換算法和模型訓(xùn)練算法的配置信息,并把模型文件的基礎(chǔ)信息記錄到關(guān)系數(shù)據(jù)庫中,其中,模型的基礎(chǔ)信息包括模型文件名稱、版本、保存路徑;
模型讀取步驟:鏈接對(duì)應(yīng)的關(guān)系數(shù)據(jù)庫,讀取模型基礎(chǔ)信息,根據(jù)模型基礎(chǔ)信息到分布式文件系統(tǒng)中加載對(duì)應(yīng)的模型文件,并進(jìn)行文件解析,得到完整輸入輸出信息和模型的完整參數(shù);
API服務(wù):得到加載后的模型,監(jiān)聽網(wǎng)絡(luò)端口并接收網(wǎng)絡(luò)請(qǐng)求,其中,前端發(fā)送網(wǎng)絡(luò)請(qǐng)求,請(qǐng)求文本包括模型名稱、樣本特征,API服務(wù)模塊接收網(wǎng)絡(luò)請(qǐng)求返回推薦結(jié)果到前端。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣東數(shù)果科技有限公司,未經(jīng)廣東數(shù)果科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010522860.7/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。





