來源:獵云精選;文/孫媛
近一年來,數(shù)據(jù)標(biāo)注賽道呈現(xiàn)了一些不同。
在企業(yè)端,相較年初,相關(guān)賽道玩家融資宣發(fā)變少了,資本似乎變得更理智;在“民工”端,數(shù)據(jù)標(biāo)注員的工資繼續(xù)走低,在“月入不過5000,單價從5毛降到4分”的收入變化下,似乎預(yù)示著簡單的數(shù)據(jù)標(biāo)注將會被AI取代。
投資人Jerry說,大家現(xiàn)在已經(jīng)不單獨談數(shù)據(jù)標(biāo)注的概念,而是升級談更火的數(shù)據(jù)服務(wù)。例如,圍繞數(shù)據(jù)服務(wù)新增業(yè)務(wù),給大模型公司主動提供數(shù)據(jù),或者和大模型公司一起服務(wù)于主機廠。
跟隨產(chǎn)業(yè)發(fā)展,不難發(fā)現(xiàn),數(shù)據(jù)標(biāo)注的概念和服務(wù)內(nèi)容在升級,玩家們也在復(fù)用其原有的管理體系、研發(fā)能力等,去解決圍繞數(shù)據(jù)的行業(yè)痛點,結(jié)合行業(yè)變化來逐步拓寬業(yè)務(wù)范圍。
事實上,Jerry所言早有全球數(shù)據(jù)標(biāo)注領(lǐng)域的先驅(qū)Scale AI在踐行。
這家估值73億美金獨角獸,成立于2016年,核心業(yè)務(wù)就是數(shù)據(jù)標(biāo)注,通過快速捕捉AI行業(yè)趨勢推新,已從自動駕駛場景起家后切入政府、電商、機器人、大模型等場景,提供各類工具、平臺和服務(wù)。
而在國內(nèi),也有這么一家先行者,它僅次于Scale AI一年后成立,創(chuàng)辦伊始就獲得了水木清華校友基金、老鷹基金、天使灣創(chuàng)投等5家機構(gòu)進行天使輪“團購”,隨后青銳創(chuàng)投、華映資本、厚天資本、瑞夏投資更是相繼押注。
它便是以自動化解法切入AI數(shù)據(jù)標(biāo)注和數(shù)據(jù)管理服務(wù)的星塵數(shù)據(jù)。
80后數(shù)據(jù)科學(xué)家回國創(chuàng)業(yè),以自動化做解法
星塵數(shù)據(jù)掌舵者,是80后數(shù)據(jù)科學(xué)家章磊。
星塵數(shù)據(jù)創(chuàng)始人兼CEO 章磊
在海外就職期間,章磊先在華爾街做數(shù)據(jù)量化,后又去硅谷做自動化投資相關(guān)的算法工作。期間,他在華爾街工作期間開發(fā)的底層風(fēng)控算法曾被美國聯(lián)邦儲蓄局作為壓測標(biāo)準(zhǔn),在硅谷開發(fā)過世界首款股權(quán)投資機器人。
回國后,章磊第一次創(chuàng)業(yè),是以CTO的身份做了一家與自動化投資策略相關(guān)的公司,該項目需要通過大量NLP(自然語言處理)的數(shù)據(jù)來進行投資決策,當(dāng)時投資年化已做到100%。
也正是這次創(chuàng)業(yè),讓章磊基于對數(shù)據(jù)標(biāo)注的大量需求,與數(shù)據(jù)堂、龍貓、百度這些數(shù)據(jù)標(biāo)注公司打起交道,卻意外發(fā)現(xiàn)供給側(cè)與需求側(cè)的極大gap。
他看到,自動化投資需要數(shù)據(jù)側(cè)和算法側(cè)能夠進行深入交流,即數(shù)據(jù)策略,僅僅按每人每天進行數(shù)據(jù)標(biāo)注并不能解決算法工程師的問題。另外,由于標(biāo)注工具簡陋不好用,標(biāo)注員產(chǎn)能也不高,既無法滿足企業(yè)的工期需求,也無法提高標(biāo)注員的個人收入。
當(dāng)時在供給側(cè)端,數(shù)據(jù)標(biāo)注公司理念還停留在低認(rèn)知、低附加性屬性的人力外包模式,更多是在賺取人力差,而算法側(cè)本質(zhì)需求是隨時協(xié)同迭代,這就導(dǎo)致商湯曠世百度等高認(rèn)知的早期AI公司只能內(nèi)部自建標(biāo)注、數(shù)據(jù)生產(chǎn)的管道。
章磊坦言,雖然從人力或銷售端來切入,可以對人力進行標(biāo)準(zhǔn)化的培訓(xùn)操作上崗,通過職高院校之類的合作來降低人員供給端的成本,但這對于國內(nèi)數(shù)據(jù)標(biāo)注行業(yè)來說治標(biāo)不治本。
當(dāng)時,他就有一個判斷,這種靠人力差價的生意最終會隨著自動化技術(shù)發(fā)展而因為純粹靠人力而失去成本優(yōu)勢,甚至?xí)潛p。
在低進入、高認(rèn)知的行業(yè)門檻特點下,章磊認(rèn)為,從長遠考慮,自動化才是更優(yōu)解。
“Autolabeling本身是一套組合拳,里面有很多細節(jié),譬如對感知決策、大模型的任務(wù)所需要的自動化完全不一樣,需要有很高的算法認(rèn)知去用最新的技術(shù)來解決問題,并且把它落地產(chǎn)品化,成為可復(fù)制的工具鏈。目前行業(yè)內(nèi)玩家不具備這樣的能力,更多是在銷售端或運營端有一些優(yōu)勢?!?/p>
為此,逐鹿數(shù)據(jù)標(biāo)注再創(chuàng)業(yè),基于團隊的算法以及硅谷背景,章磊決定“從甲方出來解決甲方問題”,從三方面出發(fā)。
一,成立一個算法認(rèn)知的團隊去真正解決行業(yè)痛點,具備數(shù)據(jù)策略專家的能力;二,用工具鏈去做好數(shù)據(jù)服務(wù),包括數(shù)據(jù)閉環(huán)管理的工具、數(shù)據(jù)標(biāo)注、項目管理、數(shù)據(jù)檢索等輔助功能,打造云端工廠的概念;三,讓數(shù)據(jù)處理可以極大被自動化,提高到50%至90%甚至以上,形成一個高度自動化的數(shù)據(jù)生產(chǎn)管道的終局。
于是,有別于人力服務(wù)型數(shù)據(jù)標(biāo)注企業(yè),想在國內(nèi)走出Scale AI之路的星塵數(shù)據(jù)于2017年應(yīng)運而生。
以AI全生命周期的數(shù)據(jù)閉環(huán)為基座,把數(shù)據(jù)價值產(chǎn)品化
從Scale AI的發(fā)展態(tài)勢來看,自動化這條路一旦走通,具備領(lǐng)先優(yōu)勢后可以一招鮮占領(lǐng)生態(tài)位,但也并不好走。
算法層面需要根據(jù)產(chǎn)品的反饋和用戶實際的人因工程來分析進行優(yōu)化,除了團隊要具備能力基因外,還需要以最后實際落地成果來進行驗證,譬如其標(biāo)注的數(shù)據(jù)策略、工具鏈的優(yōu)化、產(chǎn)品形態(tài)、算法能不能夠跟上等。
星塵的商務(wù)和項目團隊每次跟客戶溝通和pitch時,都被要求跟客戶認(rèn)知在同一水平,成為行業(yè)的數(shù)據(jù)策略專家。
“特別是大模型的公司,因為其數(shù)據(jù)生成面臨著很多不確定性和變化,就需要能夠通過數(shù)據(jù)策略找到各種問題,并且和客戶反饋并商量去優(yōu)化最終效果,以模型效果為目標(biāo)去發(fā)力,提升客戶算法效果?!?/p>
過去6年,星塵數(shù)據(jù)在行業(yè)從野蠻生長行至盈利爬坡的過程中也沒少踩坑,但也正因此,在服務(wù)50多家車企和自動駕駛公司、經(jīng)歷上千個項目打磨后,在點滴中積累了算法和產(chǎn)品的迭代能力,其自動化標(biāo)注平臺Rosetta平臺現(xiàn)可提供數(shù)百個標(biāo)注功能,支持4DBEV、圖像、點云、文本、語音、采集等在內(nèi)的100+種主流標(biāo)注場景。
其中,星塵數(shù)據(jù)的數(shù)據(jù)閉環(huán)解決方案是其Rosetta3.0平臺的一大亮點。章磊透露,今年年底,星塵數(shù)據(jù)即將發(fā)布全新的AI數(shù)據(jù)管理平臺MorningStar,打通數(shù)據(jù)落盤、流程編排、數(shù)據(jù)管理、數(shù)據(jù)檢索、難例發(fā)現(xiàn)、數(shù)據(jù)送標(biāo)、算法管理、推理管理等機器學(xué)習(xí)閉環(huán)全鏈路,持續(xù)提升算法迭代速度。
在一個完整的數(shù)據(jù)閉環(huán)中,客戶可使用星塵數(shù)據(jù)提供的離線數(shù)據(jù)包進行基礎(chǔ)版模型訓(xùn)練,星塵數(shù)據(jù)標(biāo)注系統(tǒng)通過API與客戶算法系統(tǒng)進行交互,動態(tài)感知客戶模型效果,基于模型各版本迭代,在經(jīng)歷幾次迭代后,不僅沉淀了有效數(shù)據(jù),還節(jié)省了數(shù)據(jù)成本。
同時,星塵數(shù)據(jù)還可以在海量數(shù)據(jù)中找到真正有價值的數(shù)據(jù)幫助客戶訓(xùn)練模型,并利用自有Benchmark數(shù)據(jù)集評測模型效果。模型上線后,行車數(shù)據(jù)可用于模型迭代,形成數(shù)據(jù)閉環(huán)。該方案通過打通星塵數(shù)據(jù)標(biāo)注系統(tǒng)和客戶算法系統(tǒng),實現(xiàn)主動學(xué)習(xí)、分批訓(xùn)練和動態(tài)發(fā)掘有價值數(shù)據(jù),從而降低數(shù)據(jù)標(biāo)注規(guī)模,節(jié)省標(biāo)注成本。
星塵數(shù)據(jù)AI數(shù)據(jù)管理平臺Morningstar
據(jù)悉,具備算法認(rèn)知和迭代能力的產(chǎn)品(簡稱技術(shù)迭代能力)的客戶,譬如自動駕駛感知決策賽道上的Tier1自動駕駛公司和造車新勢力等頭部技術(shù)客戶,以及大模型企業(yè),往往傾向于自研整個數(shù)據(jù)閉環(huán)的工具鏈,把一小部分工作通過找供應(yīng)商來合作。星塵數(shù)據(jù)通過技術(shù)匹配及形成閉環(huán),就能快速達成合作。
而不具備技術(shù)迭代能力的傳統(tǒng)車廠等腰部技術(shù)公司,則非常依賴于供應(yīng)商去合作組建數(shù)據(jù)生產(chǎn)線。雖然增量很大,但其理念和合作方式上沒“整明白”,導(dǎo)致數(shù)據(jù)側(cè)和算法側(cè)都沒有很好的一個合作方式。
通常情況下,往往技術(shù)側(cè)60分的車廠想要采購90分的供應(yīng)商,價格又得是行業(yè)最低,但數(shù)據(jù)側(cè)做到90分的前提是技術(shù)測也要90分,不然又跑不動,這就需要星塵去協(xié)同打造數(shù)據(jù)生命周期管理的數(shù)據(jù)閉環(huán)系統(tǒng),回歸業(yè)務(wù)本質(zhì)來適配以持續(xù)創(chuàng)造營收。
章磊透露,目前星塵數(shù)據(jù)客戶以每年2倍增速在發(fā)展,主要服務(wù)大模型和自動駕駛。感知決策賽道上已服務(wù)了90%頭部自動駕駛企業(yè),AGI方向的大客戶也開始增多,目前已經(jīng)和多家頭部的大模型客戶達成合作。
星塵已經(jīng)與華為在DataOps系統(tǒng)方面達成了戰(zhàn)略合作,共同服務(wù)于感知決策、通用人工智能等領(lǐng)域,為客戶提供更加完善的數(shù)據(jù)閉環(huán)工具和服務(wù)支持。
率先步入下一階段,華映跑來領(lǐng)投A輪
近一年來,隨著數(shù)據(jù)標(biāo)注走熱,VC開始尋求標(biāo)的,愷望數(shù)據(jù)、曼孚科技、整數(shù)智能等賽道玩家陸續(xù)官宣融資,星塵數(shù)據(jù)這個老玩家也在資本助力開始了加速賽。
在2022年5000萬元A輪融資中,華映資本則將橄欖枝扔給了章磊。
彼時,華映資本管理合伙人章高男在看了行業(yè)若干個標(biāo)的后,作為技術(shù)創(chuàng)業(yè)出身的投資人,便與同樣有著技術(shù)背景的章磊一見如故,甚至表示,“這個行業(yè)要投就投星塵,要不就不投了。”
在章高男看來,技術(shù)足以區(qū)別真正的企業(yè)家和生意人,企業(yè)家懂得如何將技術(shù)用于再生產(chǎn)、將盈利用于投資,能目標(biāo)明確、通過產(chǎn)品化可復(fù)制的方式去把這盤棋做大。
于是,在幾面之緣之下,基于章高男對人的敏銳判斷,華映資本領(lǐng)投了星塵數(shù)據(jù)A輪融資。就在這輪融資中,還有一家VC對星塵后續(xù)發(fā)展助力頗大,那就是小米生態(tài)鏈機構(gòu)厚天資本。
也正是機構(gòu)方在管理和戰(zhàn)略上的加持,讓章磊帶領(lǐng)的星塵數(shù)據(jù)專注于既定路線用技術(shù)去解決行業(yè)的本質(zhì)問題,在眼下更具備“抗補貼”的能力。
章磊坦言,隨著數(shù)據(jù)標(biāo)注賽道微風(fēng)漸起,市場愈發(fā)激烈,甚至今年形成了以價換市“打補貼”的特殊情況。
“很多玩家為拿資本去搶占市場,或者是拿了資本被要求更激進去搶市場。但這有兩個弊端,一是貼錢后,基于價格壓力很難做好服務(wù);二是今后很難跟車廠談價格。”
在這個過程中,章磊看到,車廠也因為買低入坑,但隨后也吃一塹長一智,逐步轉(zhuǎn)變采購邏輯,客戶端的認(rèn)知度在市場教育后也有所提高。
星塵數(shù)據(jù)合作的一家車廠就是如此。
據(jù)悉,該車廠想自己搭建數(shù)據(jù)工具鏈,剛好有數(shù)據(jù)標(biāo)注企業(yè)免費提供了一款產(chǎn)品,等于為其省了幾百萬支出。
然而,由于產(chǎn)品中有各種各樣的bug需要處理,車廠不得已又投入了數(shù)百萬來改造這款工具來實現(xiàn)真正投產(chǎn)。雖然標(biāo)注成本紙面上還可以,但因為各種數(shù)據(jù)出問題導(dǎo)致工期耽誤,項目暫停又啟動,客戶對效率降低而導(dǎo)致的隱性成本支出怨聲載道。最后,為了保證數(shù)據(jù)的高效生成,這家車廠還是棄而選擇為可用產(chǎn)品付費買單。
“車廠們逐步發(fā)現(xiàn),采購零部件那一套不適合放到軟件上。因為零部件有一些性能指標(biāo)規(guī)范,但軟件特別是數(shù)據(jù)相關(guān)的產(chǎn)品迭代,不可能用一兩個紙面上的指標(biāo)來評估。星塵跟客戶去做技術(shù)匹配和長期合作過程當(dāng)中,會通過賦能聯(lián)合迭代、建模,實現(xiàn)降本增效?!?/p>
隨著感知決策以及大模型算法達到了需要不斷去以數(shù)據(jù)為中心迭代算法和模型的臨界點,章磊認(rèn)為數(shù)據(jù)行業(yè)也在迎來一場變革,將出現(xiàn)以下三方面發(fā)展態(tài)勢。
一是純?nèi)肆π蛿?shù)據(jù)標(biāo)注公司發(fā)展空間縮小,在自動化成本達到了跟人力持平、甚至更便宜的狀態(tài)后,整體會面臨比較大的紅海競爭。反向要求企業(yè)具備研發(fā)自動化標(biāo)注算法的能力和迭代能力。
二是市場亟需數(shù)據(jù)價值,其不僅在于數(shù)據(jù)增值和人類反饋,更在于發(fā)現(xiàn)指標(biāo)跟蹤、數(shù)據(jù)存儲、數(shù)據(jù)檢索、算法反饋迭代的工具鏈。
三是擁有技術(shù)迭代、產(chǎn)品迭代能力的公司,要針對客戶的痛點去解決問題,才能真正立足。同時,玩家們僅靠數(shù)據(jù)服務(wù)做好還不夠,更需要做好工具鏈和自動化算法,星塵數(shù)據(jù)目前正處于這一階段。
“我們看到數(shù)據(jù)服務(wù)可能很快會出現(xiàn)一些革命性的產(chǎn)品,或者說已經(jīng)有一些實驗性的結(jié)果在頭部實驗室誕生,可以極大降低數(shù)據(jù)的成本,快速提高模型跨領(lǐng)域的適配性和魯棒性,這種技術(shù)也是數(shù)據(jù)行業(yè)下一階段的趨勢。”
接下來,章磊表示,公司將從DataOps全流程進行技術(shù)賦能,通過一站式的AI數(shù)據(jù)管理平臺和數(shù)據(jù)策略服務(wù),以及具有自動化能力的工具鏈給客戶帶來整體的價值,提升算法最終效果的上限。
(Jerry為化名)