[發(fā)明專(zhuān)利]基于人工智能的資源組合優(yōu)化方法、裝置及存儲(chǔ)介質(zhì)在審

申請(qǐng)?zhí)枺?/td>	201710198856.8	申請(qǐng)日：	2017-03-29
公開(kāi)（公告）號(hào)：	CN107169586A	公開(kāi)（公告）日：	2017-09-15
發(fā)明（設(shè)計(jì)）人：	吳澤衡;王凡;方曉敏;何徑舟;周古月;溫佩怡	申請(qǐng)（專(zhuān)利權(quán)）人：	北京百度網(wǎng)訊科技有限公司
主分類(lèi)號(hào)：	G06Q10/04	分類(lèi)號(hào)：	G06Q10/04;G06N99/00
代理公司：	北京鴻德海業(yè)知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙)11412	代理人：	袁媛
地址：	100085 北京市***	國(guó)省代碼：	北京;11
權(quán)利要求書(shū)：	查看更多	說(shuō)明書(shū)：	查看更多
摘要：
搜索關(guān)鍵詞：	基于人工智能資源組合優(yōu)化方法裝置存儲(chǔ) 介質(zhì)
鉆瓜網(wǎng) 技術(shù)展會(huì) 專(zhuān)利詞庫(kù) 專(zhuān)利權(quán)人專(zhuān)利榜在售專(zhuān)利公布日期熱門(mén)專(zhuān)利

【說(shuō)明書(shū)】：

【技術(shù)領(lǐng)域】

本發(fā)明涉及計(jì)算機(jī)應(yīng)用技術(shù)，特別涉及基于人工智能的資源組合優(yōu)化方法、裝置及存儲(chǔ)介質(zhì)。

【背景技術(shù)】

人工智能(Artificial Intelligence)，英文縮寫(xiě)為AI。它是研究、開(kāi)發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門(mén)新的技術(shù)科學(xué)。人工智能是計(jì)算機(jī)科學(xué)的一個(gè)分支，它企圖了解智能的實(shí)質(zhì)，并生產(chǎn)出一種新的能以人類(lèi)智能相似的方式做出反應(yīng)的智能機(jī)器，該領(lǐng)域的研究包括機(jī)器人、語(yǔ)言識(shí)別、圖像識(shí)別、自然語(yǔ)言處理和專(zhuān)家系統(tǒng)等。

在feed流、搜索產(chǎn)品等場(chǎng)景中，資源組合優(yōu)化問(wèn)題是一個(gè)很常見(jiàn)也很重要的問(wèn)題。

比如，在feed流場(chǎng)景中，在每次向用戶(hù)推薦資源時(shí)，會(huì)展現(xiàn)一個(gè)資源組合(約20個(gè)新聞)給用戶(hù)瀏覽，用戶(hù)可點(diǎn)擊其中感興趣的部分。資源組合優(yōu)化問(wèn)題即指如何對(duì)這個(gè)資源組合進(jìn)行優(yōu)化，以使得最終的收益最大，如使得用戶(hù)的點(diǎn)擊次數(shù)最多。

現(xiàn)有技術(shù)中，通常采用以下方式來(lái)獲取上述資源組合：

首先，利用一個(gè)打分模型(rank model)分別對(duì)各候選資源進(jìn)行打分，從而分別獲取到各候選資源的資源評(píng)分；

之后，按照預(yù)定規(guī)則分別對(duì)各候選資源進(jìn)行排序，比如，可以按照資源評(píng)分由大到小的順序?qū)Ω骱蜻x資源進(jìn)行排序，并利用排序后處于前20位的候選資源組成資源組合，展現(xiàn)給用戶(hù)。

但是，這種方式在實(shí)際應(yīng)用中會(huì)存在一定的問(wèn)題，如：在得到各候選資源的資源評(píng)分后，基于人工設(shè)定的規(guī)則進(jìn)行候選資源的篩選，以得到展現(xiàn)給用戶(hù)的資源組合，而這個(gè)規(guī)則只是人工經(jīng)驗(yàn)下的較優(yōu)，并不是真正意義上的最優(yōu)，從而使得展現(xiàn)給用戶(hù)的資源組合不是最優(yōu)的資源組合，進(jìn)而降低了資源組合的收益。

【發(fā)明內(nèi)容】

有鑒于此，本發(fā)明提供了基于人工智能的資源組合優(yōu)化方法、裝置及存儲(chǔ)介質(zhì)，能夠提升資源組合的收益。

具體技術(shù)方案如下：

一種基于人工智能的資源組合優(yōu)化方法，包括：

訓(xùn)練得到基于強(qiáng)化學(xué)習(xí)思想的策略模型；

當(dāng)需要生成資源組合時(shí)，分別獲取各候選資源的資源評(píng)分；

根據(jù)各候選資源的資源評(píng)分以及所述策略模型，從各候選資源中選出M個(gè)候選資源組成所述資源組合，M為大于一的正整數(shù)。

一種基于人工智能的資源組合優(yōu)化裝置，包括：預(yù)處理單元以及優(yōu)化單元；

所述預(yù)處理單元，用于訓(xùn)練得到基于強(qiáng)化學(xué)習(xí)思想的策略模型；

所述優(yōu)化單元，用于當(dāng)需要生成資源組合時(shí)，分別獲取各候選資源的資源評(píng)分，根據(jù)各候選資源的資源評(píng)分以及所述策略模型，從各候選資源中選出M個(gè)候選資源組成所述資源組合，M為大于一的正整數(shù)。

一種計(jì)算機(jī)設(shè)備，包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序，所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如以上所述的方法。

一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，所述程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如以上所述的方法。

基于上述介紹可以看出，采用本發(fā)明所述方案，可預(yù)先訓(xùn)練得到基于強(qiáng)化學(xué)習(xí)思想的策略模型，這樣，當(dāng)需要生成資源組合時(shí)，可根據(jù)各候選資源的資源評(píng)分以及策略模型，從各候選資源中選出M個(gè)候選資源，利用選出的候選資源組成所需的資源組合，相比于現(xiàn)有技術(shù)，本發(fā)明所述方案中利用通過(guò)機(jī)器學(xué)習(xí)得到的策略模型來(lái)進(jìn)行候選資源的篩選，從而盡可能地保證了篩選結(jié)果的最優(yōu)，進(jìn)而提升了資源組合的收益。

【附圖說(shuō)明】

圖1為本發(fā)明所述基于人工智能的資源組合優(yōu)化方法實(shí)施例的流程圖。

圖2為本發(fā)明所述策略模型的設(shè)計(jì)方式示意圖。

圖3為本發(fā)明所述打分模型、策略模型以及評(píng)估模型之間的關(guān)系示意圖。

圖4為本發(fā)明所述基于人工智能的資源組合優(yōu)化裝置實(shí)施例的組成結(jié)構(gòu)示意圖。

圖5示出了適于用來(lái)實(shí)現(xiàn)本發(fā)明實(shí)施方式的示例性計(jì)算機(jī)系統(tǒng)/服務(wù)器12的框圖。

【具體實(shí)施方式】

為了使本發(fā)明的技術(shù)方案更加清楚、明白，以下參照附圖并舉實(shí)施例，對(duì)本發(fā)明所述方案作進(jìn)一步地詳細(xì)說(shuō)明。

圖1為本發(fā)明所述基于人工智能的資源組合優(yōu)化方法實(shí)施例的流程圖，如圖1所示，包括以下具體實(shí)現(xiàn)方式：

在101中，訓(xùn)練得到基于強(qiáng)化學(xué)習(xí)思想的策略模型；

在102中，當(dāng)需要生成資源組合時(shí)，分別獲取各候選資源的資源評(píng)分；

在103中，根據(jù)各候選資源的資源評(píng)分以及策略模型，從各候選資源中選出M個(gè)候選資源組成資源組合，M為大于一的正整數(shù)。

下載完整專(zhuān)利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶(hù)下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于北京百度網(wǎng)訊科技有限公司，未經(jīng)北京百度網(wǎng)訊科技有限公司許可，擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201710198856.8/2.html，轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。