眼看618在即,淘寶又公布了新研究成果。
近日,南京大學(xué)和淘寶聯(lián)合發(fā)表的論文Virtual-Taobao: Virtualizing Real-world Online Retail Environment for Reinforcement Learning中,詳細(xì)介紹了淘寶用強化學(xué)習(xí)優(yōu)化商品搜索的新技術(shù)。
這個新構(gòu)建的“虛擬淘寶”模擬器,可以讓算法從買家的歷史行為中學(xué)習(xí),規(guī)劃最佳商品搜索顯示策略,能在真實環(huán)境中讓淘寶的收入提高2%,是一筆不小的數(shù)額。
一起看看這個研究究竟講了什么——
強化學(xué)習(xí)(Reinforcement Learning,RL)是匹黑馬,可能會對淘寶用戶體驗產(chǎn)生變革性影響,但在物理世界中的RL應(yīng)用卻少有人研究。
這是有原因的。一般來說,目前的RL算法通常需要與環(huán)境進行大量交互,成本高昂。
在這個項目中,淘寶研究人員通過買家的歷史購買記錄,生成了“虛擬淘寶(Virtual Taobao)”;平臺,虛擬的買家可進入淘寶觸發(fā)平臺搜索引擎。
在這里,研究人員提出的GAN-SD(GAN-for-Simulating-Distribution)算法模仿虛擬買家的操作和搜索請求。
虛擬用戶有了,但還還沒有和環(huán)境產(chǎn)生交互。為了讓虛擬平臺產(chǎn)生交互變成動態(tài)環(huán)境,研究人員還提出了MAIL方法(Multi-agent Adversarial Imitation Learning),也可以稱之為智能體對抗模仿學(xué)習(xí)法。MAIL同時學(xué)習(xí)買家規(guī)則和平臺的規(guī)則,訓(xùn)練買家和平臺產(chǎn)生更加真實的交互。
不過虛擬的終究是假的,當(dāng)研究人員發(fā)現(xiàn)算法過度擬合虛擬淘寶時,意味著可能在實際情況下表現(xiàn)不佳。對此,研究人員提出了動作規(guī)范約束ANC策略(Action Norm Constraint),可以減少這種過擬合。
這樣,“四位一體”的虛擬淘寶就建成了。
南寧膚康醫(yī)院 https://yyk.familydoctor.com.cn/20955/
寧波海曙華仁皮膚??崎T診部 https://yyk.familydoctor.com.cn/7723/