亚洲精品高清国产一久久,亚洲av永久无码精品网站在线观看,亚洲精品tv久久久久久久久久,亚洲,另类,激情av在线播放,亚洲av成人一区二区三区在线看

首頁 首頁 >  文章資訊

淘寶用強化學(xué)習(xí)優(yōu)化商品搜索后,總收入能提高2%

發(fā)布者:掛號通6    發(fā)布時間:2018-06-04 15:54:50    瀏覽次數(shù):348次

眼看618在即,淘寶又公布了新研究成果。

近日,南京大學(xué)和淘寶聯(lián)合發(fā)表的論文Virtual-Taobao: Virtualizing Real-world Online Retail Environment for Reinforcement Learning中,詳細(xì)介紹了淘寶用強化學(xué)習(xí)優(yōu)化商品搜索的新技術(shù)。

這個新構(gòu)建的“虛擬淘寶”模擬器,可以讓算法從買家的歷史行為中學(xué)習(xí),規(guī)劃最佳商品搜索顯示策略,能在真實環(huán)境中讓淘寶的收入提高2%,是一筆不小的數(shù)額。

一起看看這個研究究竟講了什么——

強化學(xué)習(xí)(Reinforcement Learning,RL)是匹黑馬,可能會對淘寶用戶體驗產(chǎn)生變革性影響,但在物理世界中的RL應(yīng)用卻少有人研究。

這是有原因的。一般來說,目前的RL算法通常需要與環(huán)境進行大量交互,成本高昂。

在這個項目中,淘寶研究人員通過買家的歷史購買記錄,生成了“虛擬淘寶(Virtual Taobao)”;平臺,虛擬的買家可進入淘寶觸發(fā)平臺搜索引擎。

在這里,研究人員提出的GAN-SD(GAN-for-Simulating-Distribution)算法模仿虛擬買家的操作和搜索請求。

虛擬用戶有了,但還還沒有和環(huán)境產(chǎn)生交互。為了讓虛擬平臺產(chǎn)生交互變成動態(tài)環(huán)境,研究人員還提出了MAIL方法(Multi-agent Adversarial Imitation Learning),也可以稱之為智能體對抗模仿學(xué)習(xí)法。MAIL同時學(xué)習(xí)買家規(guī)則和平臺的規(guī)則,訓(xùn)練買家和平臺產(chǎn)生更加真實的交互。

不過虛擬的終究是假的,當(dāng)研究人員發(fā)現(xiàn)算法過度擬合虛擬淘寶時,意味著可能在實際情況下表現(xiàn)不佳。對此,研究人員提出了動作規(guī)范約束ANC策略(Action Norm Constraint),可以減少這種過擬合。

這樣,“四位一體”的虛擬淘寶就建成了。

南寧膚康醫(yī)院 https://yyk.familydoctor.com.cn/20955/

寧波海曙華仁皮膚??崎T診部 https://yyk.familydoctor.com.cn/7723/


【版權(quán)與免責(zé)聲明】如發(fā)現(xiàn)內(nèi)容存在版權(quán)問題,煩請?zhí)峁┫嚓P(guān)信息發(fā)郵件至 1830498703@qq.com ,我們將及時溝通刪除處理。 以上內(nèi)容均為網(wǎng)友發(fā)布,僅代表網(wǎng)友個人觀點,不代表平臺觀點,涉及言論、版權(quán)與本站無關(guān)。