亚洲精品高清国产一久久,亚洲av永久无码精品网站在线观看,亚洲精品tv久久久久久久久久,亚洲,另类,激情av在线播放,亚洲av成人一区二区三区在线看

淘寶用強化學(xué)習(xí)優(yōu)化商品搜索后，總收入能提高2%

發(fā)布者：掛號通6 發(fā)布時間：2018-06-04 15:54:50 瀏覽次數(shù)：348次

眼看618在即，淘寶又公布了新研究成果。

近日，南京大學(xué)和淘寶聯(lián)合發(fā)表的論文Virtual-Taobao: Virtualizing Real-world Online Retail Environment for Reinforcement Learning中，詳細(xì)介紹了淘寶用強化學(xué)習(xí)優(yōu)化商品搜索的新技術(shù)。

這個新構(gòu)建的“虛擬淘寶”模擬器，可以讓算法從買家的歷史行為中學(xué)習(xí)，規(guī)劃最佳商品搜索顯示策略，能在真實環(huán)境中讓淘寶的收入提高2%，是一筆不小的數(shù)額。

一起看看這個研究究竟講了什么——

強化學(xué)習(xí)（Reinforcement Learning，RL）是匹黑馬，可能會對淘寶用戶體驗產(chǎn)生變革性影響，但在物理世界中的RL應(yīng)用卻少有人研究。

這是有原因的。一般來說，目前的RL算法通常需要與環(huán)境進行大量交互，成本高昂。

在這個項目中，淘寶研究人員通過買家的歷史購買記錄，生成了“虛擬淘寶（Virtual Taobao）”；平臺，虛擬的買家可進入淘寶觸發(fā)平臺搜索引擎。

在這里，研究人員提出的GAN-SD（GAN-for-Simulating-Distribution）算法模仿虛擬買家的操作和搜索請求。

虛擬用戶有了，但還還沒有和環(huán)境產(chǎn)生交互。為了讓虛擬平臺產(chǎn)生交互變成動態(tài)環(huán)境，研究人員還提出了MAIL方法（Multi-agent Adversarial Imitation Learning），也可以稱之為智能體對抗模仿學(xué)習(xí)法。MAIL同時學(xué)習(xí)買家規(guī)則和平臺的規(guī)則，訓(xùn)練買家和平臺產(chǎn)生更加真實的交互。

不過虛擬的終究是假的，當(dāng)研究人員發(fā)現(xiàn)算法過度擬合虛擬淘寶時，意味著可能在實際情況下表現(xiàn)不佳。對此，研究人員提出了動作規(guī)范約束ANC策略（Action Norm Constraint），可以減少這種過擬合。

這樣，“四位一體”的虛擬淘寶就建成了。

南寧膚康醫(yī)院 https://yyk.familydoctor.com.cn/20955/

寧波海曙華仁皮膚?？崎T診部 https://yyk.familydoctor.com.cn/7723/

【版權(quán)與免責(zé)聲明】如發(fā)現(xiàn)內(nèi)容存在版權(quán)問題，煩請?zhí)峁┫嚓P(guān)信息發(fā)郵件至 1830498703@qq.com ，我們將及時溝通刪除處理。以上內(nèi)容均為網(wǎng)友發(fā)布，僅代表網(wǎng)友個人觀點，不代表平臺觀點，涉及言論、版權(quán)與本站無關(guān)。

上一篇：小熊電器沖刺IPO，銷售模式是否可持續(xù)

下一篇：走訪寺庫鑒定中心——正品是奢侈品電商的命脈

亚洲精品高清国产一久久,亚洲av永久无码精品网站在线观看,亚洲精品tv久久久久久久久久,亚洲,另类,激情av在线播放,亚洲av成人一区二区三区在线看

淘寶用強化學(xué)習(xí)優(yōu)化商品搜索后，總收入能提高2%

淘寶用強化學(xué)習(xí)優(yōu)化商品搜索后，總收入能提高2%