人工智能,這個詞放在今天來說已經(jīng)變成了一個熱門詞匯。自 2015 年人工智能商業(yè)化的大浪潮以來,越多越多的企業(yè)需要人工智能技術(shù)來賦能于傳統(tǒng)業(yè)務(wù),其中最典型的就是自動駕駛、人臉識別等等。
但是人工智能并沒有想象中那么好開發(fā),其算法是一方面,更重要的是所有人工智能都需要一個特定的訓(xùn)練平臺,來對其進(jìn)行訓(xùn)練以及評價。通過不斷重復(fù)這個循環(huán),人工智能才能得以實現(xiàn)各種各樣的功能。而驅(qū)動訓(xùn)練平臺的,則是數(shù)據(jù)。
世界經(jīng)濟(jì)論壇 2012 年的報告中,數(shù)據(jù)被稱作是世界的新財富,價值堪比石油。麥肯錫咨詢報告認(rèn)為,數(shù)據(jù)是一種生產(chǎn)資料,大數(shù)據(jù)是下一個創(chuàng)新、競爭、生產(chǎn)力提高的前沿。這些大數(shù)據(jù)的生產(chǎn)者,也就因此冠上了“人工智能原料供應(yīng)商”的名號。
今天的主角正是這么一家供應(yīng)商,龍貓數(shù)據(jù)。
龍貓數(shù)據(jù)是一家怎樣的公司?
和往常的采訪不同,DT 君是在周六的上午來到龍貓數(shù)據(jù)。根據(jù)該企業(yè)創(chuàng)始人昝智的說法,龍貓數(shù)據(jù)采用雙周休的工作制度,即單周周六正常上班,雙周周末休息。
龍貓數(shù)據(jù)的業(yè)務(wù)可以被分為兩層,對企業(yè)的業(yè)務(wù)為數(shù)據(jù)提供服務(wù)。顧名思義,該企業(yè)是為擁有人工智能訓(xùn)練平臺的企業(yè)提供訓(xùn)練用的數(shù)據(jù)。這項業(yè)務(wù)一共分為四大類:圖片類、視頻類、文本類、語音類。也就意味著,現(xiàn)在大多數(shù)人工智能相關(guān)的企業(yè)都能成為其客戶。
雖然說向企業(yè)出售數(shù)據(jù)是龍貓數(shù)據(jù)的主要營業(yè)手段,但是昝智告訴 DT 君,對于龍貓數(shù)據(jù),還有一項業(yè)務(wù)更為重要,那就是采集數(shù)據(jù)的過程。
采集數(shù)據(jù)可以被理解為挖掘石油,石油公司的主營業(yè)務(wù)是將石油銷售給其他企業(yè),可是石油公司的中心并不是怎么銷售石油,而是怎么才能以更低廉的價位挖掘更好的石油。龍貓數(shù)據(jù)也是一樣的,該企業(yè)在數(shù)據(jù)挖掘方面采用了一種眾包平臺的方式。
眾包平臺又分為兩個層面:采集和標(biāo)注。在采集方面,龍貓數(shù)據(jù)在接到客戶遞交的任務(wù)以后,會向該企業(yè)的 APP 分發(fā)這些任務(wù),比如照片、錄音等等。用戶完成任務(wù)以后都會得到獎勵,并且根據(jù)任務(wù)難度的不同會獎勵數(shù)量不等的現(xiàn)金(存于網(wǎng)絡(luò)賬戶)。
“我們將用戶傳上來的這些稱為原始素材,”昝智向 DT 君說到,“但是這些素材并不能用來訓(xùn)練,還需要標(biāo)注以及審核?!彼^標(biāo)注是指,通過人工的手段對原始素材上的特征點進(jìn)行施加機(jī)器可以理解的信息素,以此來讓人工智能通過這些特征訓(xùn)練。
以龍貓數(shù)據(jù)的人臉照片素材為例,圖上有密密麻麻的點,而每一個點都有其特征含義,如內(nèi)眼角、外眼角等。眾包平臺的人員需要把這些特征點在圖中標(biāo)記出來,才算是一份龍貓數(shù)據(jù)所需要的素材。
然而通常人臉識別需要的訓(xùn)練素材,少則 160 個點,多則數(shù)百個點,通過人工的手段估計連想要正確且完整地標(biāo)記一整張圖是非常困難的。根據(jù)昝智的描述,龍貓數(shù)據(jù)在眾包平臺的數(shù)據(jù)采集階段采用了一種自研的人工智能預(yù)處理技術(shù),即當(dāng)用戶上傳原始素材至龍貓眾包平臺后,人工智能會直接在后端開始預(yù)處理,提前標(biāo)記好任務(wù)所需要的特征點。當(dāng)素材進(jìn)入人工標(biāo)記階段時,操作人員只需要輕微地挪動一些不合理的點即可完成任務(wù)。
這種預(yù)處理又分為很多種類。仍以人臉識別為例,龍貓數(shù)據(jù)準(zhǔn)備了多種特征標(biāo)注方法,如 186 個點,216 個點等等,這些標(biāo)注方式比較常見,可以直接套用給大多數(shù)人臉識別訓(xùn)練平臺。而另外一些不常見的標(biāo)注方式,龍貓數(shù)據(jù)選擇和客戶企業(yè)共同開發(fā)預(yù)處理方式。昝智認(rèn)為,客戶既然從事這方面的訓(xùn)練,那么他們對這些數(shù)據(jù)的需求一定有獨到之處,所以共同開發(fā)才是最合理而且最節(jié)省成本的事情。從龍貓數(shù)據(jù)現(xiàn)有的預(yù)處理技術(shù)來看,該企業(yè)專長是計算機(jī)視覺相關(guān)以及音頻相關(guān)的預(yù)處理技術(shù),服務(wù)于自動駕駛、圖像識別、聲音識別等行業(yè)。
當(dāng)然,凡是眾包平臺都會遇見這樣的問題,操作人員并不是真正意義上的隸屬于企業(yè),這其中難免魚龍混雜。尤其是數(shù)據(jù)采集,這樣的環(huán)境會給數(shù)據(jù)清洗環(huán)節(jié)造成極大的困擾。龍貓數(shù)據(jù)則對其眾包平臺人員采用了一種多層次的審查機(jī)制。
首先是考核,操作人員需要通過練習(xí)題才能“就業(yè)上崗”。不過就算是上崗了,操作人員也不能混日子。龍貓數(shù)據(jù)會在數(shù)據(jù)標(biāo)注階段不定期地發(fā)放陷阱題,即龍貓數(shù)據(jù)已經(jīng)知道答案,如果操作人員沒有正確地像答案一樣標(biāo)注數(shù)據(jù),那么他們就會被系統(tǒng)警告,最后會被剝奪操作資格。
同時,在標(biāo)注過程中,系統(tǒng)也會檢查操作人員的標(biāo)注速度、操作記錄等等。這是為了防止出現(xiàn)機(jī)器人刷任務(wù)和其他的違規(guī)操作。目前為止,龍貓眾包平臺的用戶超過了 400 萬,月訂單金額達(dá)到了千萬元的級別。
不過這還沒完,當(dāng)原始素材被標(biāo)注以及審核完后,它會被上傳至云端。目前龍貓數(shù)據(jù)將原始素材以及遞交給客戶的素材存在了兩個不同企業(yè)的云端存儲上,昝智解釋這是為了保護(hù)數(shù)據(jù)的安全以及客戶的隱私。
誰組成了龍貓數(shù)據(jù)?
龍貓數(shù)據(jù)的盈利思路非常清晰,昝智則表示,這是一家科技企業(yè)應(yīng)該做到的。事實上龍貓數(shù)據(jù)最早并不是做大數(shù)據(jù)采集的。在種子輪階段,龍貓數(shù)據(jù)的業(yè)務(wù)是交通卡與手機(jī)的移動支付,通過 NFC 功能,用戶可以直接通過手機(jī)往交通卡里充錢,也可以將交通卡里的錢轉(zhuǎn)給手機(jī)。這項業(yè)務(wù)在 2014 年叫做“閃電刷”,隨后微信支付和支付寶迅速崛起后,昝智意識到了閃電刷很難在這兩座大山前面崛起,于是果斷轉(zhuǎn)型,至此才有了龍貓數(shù)據(jù)。
昝智擔(dān)任百度廣告系統(tǒng)產(chǎn)品經(jīng)理,但是他并不喜歡這份工作,于是他跳槽去了豌豆莢。來到新公司后,昝智第一件負(fù)責(zé)的事情就是豌豆莢的廣告系統(tǒng),鑒于在百度任職時間過短,廣告系統(tǒng)對于他來說仍然是從零開始。
在廣告系統(tǒng)做了一年多的業(yè)務(wù)以后,昝智被調(diào)去了豌豆莢的游戲聯(lián)運,他告訴 DT 君,他很喜歡這種從零到一的過程。也正是在豌豆莢的就職過程中,昝智結(jié)識了姚毅,也就是現(xiàn)在龍貓數(shù)據(jù)的 CTO。
姚毅曾經(jīng)是谷歌的工程師,后來跟著李開復(fù)去了創(chuàng)新工場。姚毅很信任昝智的戰(zhàn)略眼光,即使龍貓數(shù)據(jù)發(fā)生了天翻地覆的業(yè)務(wù)調(diào)整,姚毅也選擇推翻原有的技術(shù)重新開發(fā)。
龍貓數(shù)據(jù)目前的總?cè)藬?shù)為 68 人,技術(shù)團(tuán)隊占比最高,將近 30 個人。剩下的人員分別是 20 多個平臺運營人員以及僅有的幾個銷售人員。昝智告訴 DT 君,“我們也期望有很多銷售人員,但是我們的銷售要求比較高。龍貓數(shù)據(jù)主要對接的是客戶的研發(fā)團(tuán)隊,因為他們有直接的數(shù)據(jù)需求,也就是說銷售人員必須很懂這個行業(yè)才行。”
截止至 2018 年,龍貓數(shù)據(jù)已經(jīng)將業(yè)務(wù)銷售給了百度、騰訊、華為、快手、京東、三星這些巨頭型企業(yè)。昝智表示,龍貓數(shù)據(jù)給這些客戶都做過幾十項業(yè)務(wù),有一些則做過上百個。
數(shù)據(jù)
上文提到,龍貓數(shù)據(jù)是一家提供人工智能訓(xùn)練數(shù)據(jù)的公司,并不是一家直接提供大數(shù)據(jù)的公司。雖然都有數(shù)據(jù)二字,不過這兩者卻是天壤之別。大數(shù)據(jù)講究“5 個大 V”,分別是數(shù)據(jù)規(guī)模大(Volume)、數(shù)據(jù)多樣性(Variety)、數(shù)據(jù)處理時效性(Velocity)、結(jié)果準(zhǔn)確性(Veracity)、深度價值(Value)。
人工智能的訓(xùn)練數(shù)據(jù)要求是符合訓(xùn)練平臺的需求。仍然以人臉識別為例,在該領(lǐng)域的人工智能訓(xùn)練中,其訓(xùn)練數(shù)據(jù)采集往往會要求 50% 的室內(nèi)、50% 的室外、明亮環(huán)境 80%、普通環(huán)境 20%。但事實上,消費者真正用人臉識別喚醒機(jī)器的場景卻遠(yuǎn)比訓(xùn)練場景更為縱深復(fù)雜。
因此,要想了解龍貓數(shù)據(jù)的業(yè)務(wù),應(yīng)該了解這些人工智能訓(xùn)練平臺到底需要怎樣的數(shù)據(jù)集才行。2014 年,F(xiàn)acebook 提出了 DeepFace,這是一種利用卷積神經(jīng)網(wǎng)絡(luò)和大規(guī)模人臉圖像進(jìn)行人臉識別的技術(shù),其在 LFW 上獲得了 97.35% 的精度,性能與人工識別不相上下;VGG 網(wǎng)絡(luò)采取深層拓?fù)浣Y(jié)構(gòu)和較大的輸入圖像獲得了 98.95% 的精度;香港中文大學(xué)提出的 DeepId 網(wǎng)絡(luò)對卷積神經(jīng)網(wǎng)絡(luò)做出了進(jìn)一步改進(jìn),采用局部和全局特征聯(lián)合,利用聯(lián)合貝葉斯處理卷積特征以及利用識別和認(rèn)證兩種監(jiān)督信息進(jìn)行訓(xùn)練,將精度提升到了 99%;Google 的 FaceNet 采用三元組損失函數(shù)(Triplet Loss)作為監(jiān)督信息,在 2015 年獲得了 99.63% 的精度。
以上這些精度超過人工識別的人臉識別技術(shù)都需要大量的訓(xùn)練數(shù)據(jù)集支持才得以實現(xiàn),具體數(shù)據(jù)量如下表。
圖丨各種人臉識別技術(shù)所需要的數(shù)據(jù)量對比
盡管 Lightened CNN 采用了一種新的激活函數(shù),即 MFM 函數(shù),并且其網(wǎng)絡(luò)結(jié)構(gòu)也很小,但是仍需要 45 萬的數(shù)據(jù)量才能夠完成訓(xùn)練。使用中心損失函數(shù)(Center Loss)的 Caffe-face 也是同理。這些“小巧”是對于其他訓(xùn)練平臺而言的,對于人類,這仍然是天文數(shù)字。
這張圖其實并不能完全體現(xiàn)出人臉識別訓(xùn)練數(shù)據(jù)集的需求量,如果結(jié)合下一張看,你就會了解到這個行業(yè)是多么需要訓(xùn)練數(shù)據(jù)的支持了。
圖丨各種人臉識別技術(shù)需要的訓(xùn)練圖片數(shù)量以及圖片人數(shù)
事實上在人工智能訓(xùn)練領(lǐng)域,人臉識別所需要的數(shù)據(jù)量遠(yuǎn)遠(yuǎn)不如其他種訓(xùn)練方式。同樣處于計算機(jī)視覺的無人駕駛就是最好的例子,后者需要的訓(xùn)練數(shù)據(jù)量可能是前者的數(shù)千倍,乃至數(shù)萬倍。
ECCV2016 的一篇文章提出了利用人工合成來完成大量訓(xùn)練數(shù)據(jù),Google 最近推出的 BEGAN,則是利用生成對抗網(wǎng)絡(luò)來生成不同的任務(wù)。這是目前解決訓(xùn)練數(shù)據(jù)量不足的方法之一,不過也正是由于這種方法的出現(xiàn),才變相體現(xiàn)出了“人工智能供應(yīng)商”們嚴(yán)重的供不應(yīng)求。
然而事實就是,人臉識別等技術(shù)是有生成對抗網(wǎng)絡(luò)來支持了,無人駕駛、聲音識別等領(lǐng)域卻并不存在成熟的生成對抗網(wǎng)絡(luò)技術(shù),它們?nèi)匀恍枰薮蟮挠?xùn)練數(shù)據(jù)。其實目前的 GAN 也都停留在實驗階段,沒有真正拿出來投入商業(yè)化的。
根據(jù)鄭州市科學(xué)技術(shù)情報所的報告,截止至 2018 年,北京一共有 242 家人工智能企業(yè),上海有 112 家,深圳有 93 家,杭州有 36 家。此外,每家人工智能都需要訓(xùn)練數(shù)據(jù),一些企業(yè)還需要復(fù)數(shù)種類的訓(xùn)練數(shù)據(jù)。龍貓數(shù)據(jù)在這方面確實抓住了行業(yè)的痛點。從長遠(yuǎn)來看,人工智能應(yīng)該會是一個能持續(xù)發(fā)展的領(lǐng)域,這也意味著龍貓數(shù)據(jù)存在與之相對應(yīng)的長期持續(xù)盈利能力。
但是,龍貓數(shù)據(jù)的眾包形式和傳統(tǒng)的數(shù)據(jù)供應(yīng)商,究竟孰強(qiáng)孰弱呢?傳統(tǒng)數(shù)據(jù)供應(yīng)商的數(shù)據(jù)采集形式就是雇傭一大批人拿著數(shù)據(jù)采集設(shè)備進(jìn)行人工采集,當(dāng)原始素材上傳至企業(yè)云端時,再調(diào)遣企業(yè)員工對數(shù)據(jù)進(jìn)行標(biāo)注。根據(jù)昝智的介紹,這種方法的成本比眾包平臺要貴,而且采集周期比較長,畢竟要調(diào)動很多人,而龍貓數(shù)據(jù)的眾包形式可以允許企業(yè)在接到數(shù)據(jù)采集任務(wù)后,第二天就開始執(zhí)行采集工作。
其實一些苦于訓(xùn)練數(shù)據(jù)不足,又囊中羞澀的人工智能公司,他們會選擇直接發(fā)動全公司的人去采集數(shù)據(jù),而且這種行為在初創(chuàng)人工智能公司中并不少見。對于龍貓數(shù)據(jù)來說,這些公司也是很好的目標(biāo)客戶。
2017年12 月 14 日,工業(yè)和信息化部印發(fā)了《促進(jìn)新一代人工智能產(chǎn)業(yè)發(fā)展三年行動計劃( 2018-2020 年)》,其中提到 “構(gòu)建行業(yè)訓(xùn)練資源庫、標(biāo)準(zhǔn)測試及知識產(chǎn)權(quán)服務(wù)平臺、智能化網(wǎng)絡(luò)基礎(chǔ)設(shè)施、網(wǎng)絡(luò)安全保障等產(chǎn)業(yè)公共支撐體系,完善人工智能發(fā)展環(huán)境“ 。目前,我國人工智能發(fā)展的痛點問題之一就是缺少有效的行業(yè)資源訓(xùn)練庫,業(yè)界普遍反映已經(jīng)影響了人工智能技術(shù)發(fā)展及在行業(yè)中的應(yīng)用。上述提到的行業(yè)資源訓(xùn)練褲即是龍貓數(shù)據(jù)所長期專注開發(fā)、服務(wù)的人工智能數(shù)據(jù)采集與標(biāo)注領(lǐng)域。昝智認(rèn)為,人工智能的發(fā)展離不開數(shù)據(jù)數(shù)量和質(zhì)量的不斷提高,一方面是政策支持,另一方面是數(shù)據(jù)服務(wù)公司技術(shù)和資源的不斷投入,雙管齊下將形成有效引導(dǎo),不斷完善產(chǎn)業(yè)發(fā)展環(huán)境。
不過有一說一,龍貓數(shù)據(jù)的眾包數(shù)據(jù)采集歸根結(jié)底還是模式創(chuàng)新,即需要技術(shù)團(tuán)隊做支撐。這也就意味著龍貓數(shù)據(jù)需要更強(qiáng)技術(shù)的占比,以此抬高行業(yè)門檻才能保持競爭力。而昝智表示,龍貓數(shù)據(jù)接下來要做的就是進(jìn)一步擴(kuò)張技術(shù)人員。
“用非脫敏數(shù)據(jù),他的肯定不是用來訓(xùn)練”
一般而言,人工智能的訓(xùn)練數(shù)據(jù)都是脫敏的,即不包含任何的個人隱私信息,就算是醫(yī)療領(lǐng)域人工智能的訓(xùn)練數(shù)據(jù)也不例外。這也是訓(xùn)練數(shù)據(jù)和大數(shù)據(jù)的區(qū)別點之一。在大數(shù)據(jù)領(lǐng)域,尤其是大數(shù)據(jù)的應(yīng)用層,有一種技術(shù)特點叫做“應(yīng)用需求驅(qū)動特性”,這是指大數(shù)據(jù)處理應(yīng)該結(jié)合行業(yè)應(yīng)用的實際場景和需求。
那么在大數(shù)據(jù)處理的過程中,就會碰到大量的個人隱私數(shù)據(jù),比如出生年月日、身份證號等等。“用非脫敏的數(shù)據(jù),那么他的目的肯定不是想訓(xùn)練人工智能?!标弥歉嬖V DT 君,“我們不會和這種人合作的?!?/p>
昝智有自己的原則,龍貓數(shù)據(jù)也是一樣的。這也非脫敏數(shù)據(jù)的業(yè)務(wù)利潤實際上要比通常的訓(xùn)練數(shù)據(jù)要高。為了平臺的長遠(yuǎn)考慮,昝智并沒有選擇這樣做。不過龍貓數(shù)據(jù)并不會挑客戶?!暗悄切┲安唤Y(jié)項目款的我們還是會慎重考慮!”昝智補(bǔ)充道。同時該企業(yè)也會和客戶去探討,這些數(shù)據(jù)對于客戶的訓(xùn)練平臺是否真的有意義。
上文提到,龍貓數(shù)據(jù)最初的業(yè)務(wù)叫做閃電刷,這項業(yè)務(wù)為其獲得了 300 萬元人民幣的天使輪融資以及 500 萬元的 Pre-A 輪融資。到了 2016 年,昝智把業(yè)務(wù)大規(guī)模調(diào)整后才有了現(xiàn)在的龍貓數(shù)據(jù)。根據(jù)該企業(yè)的融資消息來看,其在 2017 年年末完成了 3370 萬元的融資。
這筆融資被用來擴(kuò)張團(tuán)隊,從早期的 33 人團(tuán)隊擴(kuò)張至了今天的 68 人團(tuán)隊。并且昝智表示,未來龍貓數(shù)據(jù)要建立自己的云端存儲能力,對于客戶和自己來說,這樣做都是更安全的。
在數(shù)據(jù)采集領(lǐng)域,近年來共有 850 個創(chuàng)業(yè)項目,但是其中 43.18% 的相關(guān)企業(yè)是成立于 2012 年之前。而且在這些企業(yè)之中,未融資的企業(yè)占了 47.4%,僅有 28.1% 的企業(yè)處于 A 輪之后。從龍貓數(shù)據(jù)的發(fā)展?fàn)顩r來看,該企業(yè)目前正處于尋求融資階段,昝智的計劃是融到 1 億元左右,以支撐上述的企業(yè)發(fā)展。
這樣的融資規(guī)模對于數(shù)據(jù)采集行業(yè)來說,其實是比較常見的。2018 年 4 月以及 5 月,該領(lǐng)域出現(xiàn)了一個爆炸點,4 月共有 40 起融資,5 月為 46 起。這兩個月數(shù)據(jù)采集領(lǐng)域的融資總數(shù),比 2017 年第四季度加上 2018 年第一季度總和還要多。2018 年 5 月的融資總額更是達(dá)到了 35 億元人民幣的高峰,沒有什么能比這更提振該領(lǐng)域的從業(yè)人員了。
在 DT 君看來,造成這個局面的原因很可能是人工智能領(lǐng)域快要到推出“革命性產(chǎn)品”的時間點了。自人工智能概念被提起,這項一直處于人才缺口的技術(shù)事實上一直沒有拿出真正一錘定音的好產(chǎn)品,無論是消費者端還是企業(yè)端。
2018 年很可能迎來人工智能的關(guān)鍵一戰(zhàn),這就讓身為人工智能供應(yīng)鏈端的數(shù)據(jù)采集公司能夠獲得大量的收益,龍貓數(shù)據(jù)也將受到來自于人工智能行業(yè)的恩惠。
https://yyk.familydoctor.com.cn/21222/
https://yyk.familydoctor.com.cn/21222/comment_1.html