Pievienojieties pasākumam, kuru uzņēmuma vadītāji uzticas gandrīz divas desmitgades. VB Remodel apvieno cilvēkus, kas veido reālu uzņēmumu AI stratēģiju. Uzziniet vairāk
Šodien, tā ikgadējā Dati + AI samitsVerdzība Datu bikses paziņoja, ka tā ir atvērtā avota sava galvenā deklaratīvā ETL ietvars kā Apache Spark deklaratīvie cauruļvadi, padarot to pieejamu visai Apache Spark kopienai gaidāmajā paziņojumā.
Databricks 2022. gadā uzsāka ietvaru kā Delta Stay Tables (DLT), un kopš tā laika ir paplašināja to līdz Palīdziet komandām veidot un darbināt uzticamus, mērogojamus datu cauruļvadus no vienas puses. Pāreja uz atvērtā koda tas pastiprina uzņēmuma apņemšanos atvērt ekosistēmas, vienlaikus iezīmējot centienus vienam konkurentam Snowflake, kas nesen uzsāka savu atvērto plūsmas pakalpojumu datu integrācijai-būtiska datu inženierijas sastāvdaļa.
Sniegpārslas piedāvājums pieskaras Apache Nifi, lai centralizētu visus datus no jebkura avota savā platformā, savukārt Databricks padara savu iekšējo cauruļvadu inženiertehnoloģiju atvērtu, ļaujot lietotājiem to palaist jebkur Apache Spark tiek atbalstīta-un ne tikai uz savas platformas.
Deklarējiet cauruļvadus, ļaujiet dzirkstelim rīkoties pārējo
Tradicionāli datu inženierija ir bijusi saistīta ar trim galvenajiem sāpju punktiem: sarežģīta cauruļvadu autorēšana, manuālās operācijas virs galvas un nepieciešamība uzturēt atsevišķas sistēmas partijas un straumēšanas darba slodzēm.
Izmantojot dzirksteles deklaratīvos cauruļvadus, inženieri apraksta, kas viņu cauruļvadam jādara, izmantojot SQL vai Python, un Apache Spark apstrādā izpildi. Sistēma automātiski izseko atkarības starp tabulām, pārvalda tabulas izveidi un evolūciju un veic operatīvos uzdevumus, piemēram, paralēlu izpildi, kontrolpunktus un atkārtojumus ražošanā.
“Jūs deklarējat virkni datu kopu un datu plūsmu, un Apache Spark ir parādījis pareizo izpildes plānu,” intervijā VentureBeat sacīja Maikls Armbrust, izcilais programmatūras inženieris Databricks.
Framework atbalsta partijas, straumēšanas un daļēji strukturētus datus, ieskaitot failus no objektu glabāšanas sistēmām, piemēram, Amazon S3, ADLS vai GCS, no kastes. Inženieriem vienkārši ir jādefinē gan reālā laika, gan periodiska apstrāde, izmantojot vienu API, un cauruļvada definīcijas ir apstiprinātas pirms izpildes, lai agrīni noķertu problēmas-nav nepieciešams uzturēt atsevišķas sistēmas.
“Tas ir paredzēts modernu datu realitātei, piemēram, maiņu datu plūsmas, ziņojumu kopni un reālā laika analītika, kas darbina AI sistēmas. Ja Apache Spark to var apstrādāt (dati), šie cauruļvadi to var apstrādāt,” skaidroja Armbrust. Viņš piebilda, ka deklaratīvā pieeja iezīmē jaunākos datus, lai vienkāršotu Apache Spark.
“Pirmkārt, mēs padarījām izplatītu skaitļošanu funkcionālu ar RDD (izturīgas izplatītas datu kopas). Tad mēs padarījām vaicājuma izpildes deklaratīvu ar Spark SQL. Mēs to pašu modeli ieviesām straumēšanai ar strukturētu straumēšanu un veicām mākoņu glabāšanas darījumu ar Delta ezeru. Tagad mēs veicam nākamo lēcienu, veicot gala gala cauruļvadu deklaratīvu deklaratīvu,” viņš teica.
Pierādīts mērogā
Kaut arī deklaratīvā cauruļvada ietvars ir paredzēts apņemties ievērot dzirksteles kodu bāzi, tā veiklība jau ir zināma tūkstošiem uzņēmumu, kas to ir izmantojuši kā daļu no datu brīžiem Lakeflow risinājuma, lai apstrādātu darba slodzi, sākot no ikdienas partijas pārskatiem līdz sekundē straumēšanas lietojumprogrammām.
Ieguvumi ir diezgan līdzīgi visā pasaulē: jūs tērējat mazāk laika, izstrādājot cauruļvadus vai veicot apkopes uzdevumus un sasniedzot daudz labāku sniegumu, latentumu vai izmaksas, atkarībā no tā, ko vēlaties optimizēt.
Finanšu pakalpojumu uzņēmums Block izmantoja sistēmu, lai samazinātu attīstības laiku par vairāk nekā 90%, savukārt Jūras spēku federālā krājaizdevu sabiedrība samazināja cauruļvadu uzturēšanas laiku par 99%. Dzirksteles strukturēts straumēšanas dzinējs, uz kura tiek būvēti deklaratīvie cauruļvadi, ļauj komandām pielāgot cauruļvadus viņu īpašajam latentumam līdz reāllaika straumēšanai.
“Kā inženierzinātņu vadītājs es mīlu to, ka mani inženieri var koncentrēties uz to, kas ir vissvarīgākais uzņēmējdarbībai,” sacīja Jian Zhou, Jūras spēku federālās krājaizdevu sabiedrības vecākais inženierzinātņu vadītājs. “Ir aizraujoši redzēt, ka šis inovācijas līmenis tagad ir atvērts, padarot to pieejamu vēl vairāk komandām.”
Breds Turnbaugh, vecākais datu inženieris 84,51 °, atzīmēja, ka ietvars ir “atvieglojis gan partijas, gan straumēšanas atbalstīšanu, nesadalot atsevišķas sistēmas”, vienlaikus samazinot koda daudzumu, kas viņam jāpārvalda.
Atšķirīga pieeja no sniegpārslas
Sniegpārsla, kas ir viena no lielākajiem datu brīžiem, arī nesenajā konferencē ir veikusi pasākumus, lai risinātu datu problēmas, debitējot norīšanas pakalpojumu ar nosaukumu OpenFlow. Tomēr viņu pieeja ir atšķirīga no datu brīžiem.
OpenFlow, kas veidots uz Apache Nifi, galvenokārt koncentrējas uz datu integrāciju un pārvietošanos Snowflake platformā. Lietotājiem joprojām ir jātīra, jāpārveido un jāapkopo dati, kad tie nonāk sniegpārsliņā. No otras puses, dzirksteles deklaratīvie cauruļvadi pārsniedz, pārejot no avota uz izmantojamiem datiem.
“Spark deklaratīvie cauruļvadi ir veidoti, lai lietotājiem dotu iespēju griezties visaptverošos datu cauruļvadus-koncentrējoties uz datu transformācijas vienkāršošanu un sarežģītām cauruļvadu operācijām, kas pamato šīs pārvērtības,” sacīja Armbrust.
Spark deklaratīvo cauruļvadu atvērtā koda raksturs to atšķir arī no patentētiem risinājumiem. Lietotājiem nav jābūt Databricks klientiem, lai izmantotu tehnoloģiju, saskaņojot ar uzņēmuma vēsturi, kas saistīta ar galvenajiem projektiem, piemēram, Delta Lake, MLFlow un Unity katalogu atvērtā koda kopienai.
Pieejamības grafiks
Apache Spark deklaratīvie cauruļvadi gaidāmajā izlaidumā tiks apņēmušies Apache Spark CodeBase. Precīzs laika grafiks tomēr joprojām nav skaidrs.
“Mēs esam bijuši sajūsmā par izredzes atvērt mūsu deklaratīvā cauruļvada ietvaru, kopš mēs to atklājām,” sacīja Armbrust. “Pēdējo 3 un vairāk gadu laikā mēs esam daudz iemācījušies par modeļiem, kas darbojas vislabāk, un fiksēja tos, kuriem bija nepieciešama precīza noregulēšana. Tagad tas ir pierādīts un gatavs plaukt atklātā.”
Atvērtā koda ieviešana sakrīt arī ar vispārējo datu brīžu pieejamību Lakeflow deklaratīvo cauruļvadu, tehnoloģijas komerciālajā versijā, kas ietver papildu uzņēmuma funkcijas un atbalstu.
Databricks dati + AI samits Darbojas no 2025. gada 9. līdz 12. jūnijam
avots