Databricks 日前發(fā)布 Apache Spark 的英文 SDK,這是一個(gè)變革性的工具,旨在豐富 Spark 體驗(yàn)。
開發(fā)者可以使用英文指令編寫程序,例如「2022 USA national auto sales by brand」(美國 2022 年汽車銷量),編譯器會(huì)將英文指令轉(zhuǎn)換為 PySpark 或 SQL 代碼來執(zhí)行指令。
據(jù)官方介紹,Apache Spark?在全球 208 個(gè)國家和地區(qū)的年下載量超過 10 億次,極大地推動(dòng)了大規(guī)模數(shù)據(jù)分析的發(fā)展。英文 SDK 創(chuàng)新性地應(yīng)用了生成式人工智能(Generative AI),使 Spark 比以往任何時(shí)候都更加友好和易于使用。
GitHub Copilot 已經(jīng)徹底改變了人工智能輔助代碼開發(fā)領(lǐng)域。雖然它功能強(qiáng)大,但它希望用戶理解生成的代碼才能提交。審核人員也需要理解代碼才能進(jìn)行審核。這可能是限制其更廣泛應(yīng)用的一個(gè)因素。它偶爾也會(huì)在上下文方面遇到困難,尤其是在處理 Spark 表和 Dataframes 時(shí)。例如出現(xiàn)不存在的 dept_id 列,這需要開發(fā)者發(fā)現(xiàn)并進(jìn)行修正。
這是 Databricks 希望解決的問題。他們發(fā)現(xiàn),大型語言模型非常了解 Spark,因?yàn)?Spark 社區(qū)在過去 10 年貢獻(xiàn)了大量開放且高質(zhì)量的文本,例如 API 文件、開源項(xiàng)目、問答和教程等。
因此,Databricks 團(tuán)隊(duì)使用了語言模型開發(fā)了一套英文版 SDK,用戶可以直接在代碼中使用英文指令來獲取結(jié)果,從而減少所需編寫的代碼量。
Apache Spark 英文版 SDK 是一個(gè)極其簡單但功能強(qiáng)大的工具,可以顯著增強(qiáng)用戶的開發(fā)過程。它旨在簡化復(fù)雜的任務(wù),減少所需的代碼量,并讓用戶更加專注于從數(shù)據(jù)中獲取見解。
Databricks 表示,雖然英文版 SDK 仍處于開發(fā)的早期階段,但對其潛力感到非常興奮。鼓勵(lì)用戶探索這個(gè)創(chuàng)新工具,親身體驗(yàn)其好處,并考慮為該項(xiàng)目做出貢獻(xiàn)。不要只是觀察革命——成為革命的一部分。
此前 Databricks 同意以約 13 億美元的估值收購生成式人工智能初創(chuàng)公司 MosaicML,此舉旨在滿足企業(yè)構(gòu)建類似 ChatGPT 的工具的快速增長需求。