Klusa revolūcija pārveido uzņēmuma datu inženieriju. Python izstrādātāji dažu minūšu laikā veido ražošanas datu cauruļvadus, izmantojot rīkus, kuriem pirms dažiem mēnešiem būtu vajadzīgas veselas specializētas komandas.
Katalizators ir dltatvērtā koda Python bibliotēka, kas automatizē sarežģītus datu inženierijas uzdevumus. Šis rīks ir sasniedzis 3 miljonus ikmēneša lejupielāžu un nodrošina datu darbplūsmas vairāk nekā 5000 uzņēmumu regulētajās nozarēs, tostarp finanšu, veselības aprūpes un ražošanas jomā. Šī tehnoloģija šodien saņem vēl vienu pārliecinošu uzticības balsojumu, jo dltHub, Berlīnē bāzētais uzņēmums, kas ir atvērtā pirmkoda dlt bibliotēkas pamatā, piesaista 8 miljonus USD sākuma finansējumu, ko vada Bessemer Enterprise Companions.
Tas, kas padara to nozīmīgu, nav tikai adopcijas skaits. Šādi izstrādātāji izmanto rīku kopā ar AI kodēšanas palīgiem, lai veiktu uzdevumus, kuriem iepriekš bija nepieciešami infrastruktūras inženieri, DevOps speciālisti un dežūrpersonāls.
Uzņēmums veido mākoņa mitinātu platformu, kas paplašina savu atvērtā koda bibliotēku līdz pilnīgam risinājumam. Platforma ļaus izstrādātājiem izvietot cauruļvadus, transformācijas un piezīmjdatorus ar vienu komandu, neuztraucoties par infrastruktūru. Tas nozīmē būtisku pāreju no datu inženierijas, kam nepieciešamas specializētas komandas, uz kļūstot pieejamai jebkuram Python izstrādātājam.
"Jebkuram Python izstrādātājam jāspēj tuvināt savus biznesa lietotājus jauniem, uzticamiem datiem," Matthaus Krzykowski, dltHub līdzdibinātājs un izpilddirektors, pastāstīja VentureBeat ekskluzīvā intervijā. "Mūsu misija ir padarīt datu inženieriju tikpat pieejamu, sadarbīgu un netraucētu kā pašu Python rakstīšanu."
No SQL līdz Python vietējai datu inženierijai
Problēma, ko uzņēmums nolēma atrisināt, radās reālās pasaules neapmierinātības rezultātā.
Viena no galvenajām neapmierinātības grupām rodas no būtiskas sadursmes starp dažādu paaudžu izstrādātāju darbu ar datiem. Krzykowski atzīmēja, ka ir izstrādātāju paaudze, kuras pamatā ir SQL un relāciju datu bāzes tehnoloģija. No otras puses, ir izstrādātāju paaudze, kas veido AI aģentus ar Python.
Šī atšķirība atspoguļo dziļākas tehniskās problēmas. Uz SQL balstīta datu inženierija bloķē komandas noteiktās platformās un prasa plašas infrastruktūras zināšanas. Python izstrādātājiem, kas strādā ar mākslīgo intelektu, ir nepieciešami viegli platformas agnostiski rīki, kas darbojas piezīmjdatoros un integrējas ar LLM kodēšanas palīgiem.
Dlt bibliotēka maina šo vienādojumu, automatizējot sarežģītus datu inženierijas uzdevumus vienkāršā Python kodā.
"Ja zināt, kas ir Python funkcija, kas ir saraksts, avots un resurss, tad varat uzrakstīt šo ļoti deklaratīvo, ļoti vienkāršo kodu," Kržikovskis paskaidroja.
Galvenais tehniskais sasniegums shēmas attīstībai tiek risināts automātiski. Kad datu avoti maina izvades formātu, tradicionālie cauruļvadi pārtrūkst.
"DLT ir mehānismi, lai automātiski atrisinātu šīs problēmas," Tjerijs Žans, dltHub dibinātājs, pastāstīja VentureBeat. "Tātad tas nosūtīs datus, un jūs varat teikt, brīdināt mani, ja lietas mainās iepriekš, vai vienkārši padarīs to pietiekami elastīgu un mainīs datus un galamērķi tā, lai tas atbilstu šīm lietām."
Reālās pasaules izstrādātāju pieredze
Hoits Emersons, The Full Information Stack datu konsultants un satura veidotājs, nesen pieņēma šo rīku darbam, kurā viņam bija jāatrisina izaicinājums.
Viņam bija jāpārvieto dati no Google Cloud Storage uz vairākiem galamērķiem, tostarp Amazon S3 un datu noliktavu. Tradicionālām pieejām būtu vajadzīgas platformai specifiskas zināšanas katram galamērķim. Emersons pastāstīja VentureBeat, ka tas, ko viņš patiešām vēlējās, bija daudz vieglāks platformas agnostiķa veids, kā nosūtīt datus no vienas vietas uz otru.
"Tieši tad DLT man deva brīdi aha," Emersons teica.
Viņš pabeidza visu cauruļvadu piecās minūtēs, izmantojot bibliotēkas dokumentāciju, kas ļāva ātri un bez problēmām sākt darbu.
Course of kļūst vēl jaudīgāks, ja to apvieno ar AI kodēšanas palīgiem. Emersons atzīmēja, ka viņš izmanto aģentu AI kodēšanas principus, un saprata, ka dlt dokumentāciju var nosūtīt kā kontekstu LLM, lai paātrinātu un automatizētu viņa datu darbu. Izmantojot dokumentāciju kā kontekstu, Emersons varēja izveidot atkārtoti lietojamas veidnes turpmākajiem projektiem un izmantoja AI palīgus, lai ģenerētu izvietošanas konfigurācijas.
"Tas ir ļoti draudzīgs LLM, jo tas ir ļoti labi dokumentēts," viņš teica.
LLM-Native attīstības modelis
Šī labi dokumentēto rīku un AI palīdzības kombinācija ir jauns attīstības modelis. Uzņēmums ir īpaši optimizējis to, ko viņi sauc "YOLO režīms" izstrāde, kurā izstrādātāji kopē kļūdu ziņojumus un ielīmē tos AI kodēšanas palīgos.
"Daudzi no šiem cilvēkiem burtiski tikai kopē un ielīmē kļūdu ziņojumus un mēģina koda redaktorus to izdomāt," Kržikovskis teica. Uzņēmums šo uzvedību uztver pietiekami nopietni, lai novērstu problēmas, kas īpaši paredzētas AI atbalstītām darbplūsmām.
Rezultāti runā par pieejas efektivitāti. Septembrī vien lietotāji, izmantojot bibliotēku, izveidoja vairāk nekā 50 000 pielāgotu savienotāju. Tas ir 20 reizes pieaugums kopš janvāra, ko lielā mērā veicina LLM atbalstītā attīstība.
Tehniskā arhitektūra uzņēmuma mērogam
DLT dizaina filozofija piešķir prioritāti sadarbspējai, nevis platformas bloķēšanai. Rīku var izvietot jebkur, sākot no AWS Lambda līdz esošajiem uzņēmuma datu skursteņiem. Tas integrējas ar tādām platformām kā Snowflake, vienlaikus saglabājot elastību darbam ar jebkuru galamērķi.
"Mēs vienmēr uzskatām, ka DLT ir jābūt sadarbspējīgam un modulāram," Kržikovskis paskaidroja. "To var izvietot jebkur. Tas var būt uz Lambda. Tā bieži kļūst par daļu no citu cilvēku datu infrastruktūras."
Galvenās tehniskās iespējas ietver:
-
Automātiskā shēma Evolution: apstrādā augšupējās datu izmaiņas, nepārraujot cauruļvadus vai nepieprasot manuālu iejaukšanos.
-
Pakāpeniska ielāde: apstrādā tikai jaunus vai mainītus ierakstus, samazinot skaitļošanas pieskaitāmās izmaksas un izmaksas.
-
Platformas agnostiskā izvietošana: darbojas mākoņpakalpojumos un lokālajā infrastruktūrā bez izmaiņām.
-
LLM optimizēta dokumentācija: īpaši strukturēts AI palīga patēriņam, nodrošinot ātru problēmu risināšanu un veidņu ģenerēšanu.
Platforma pašlaik atbalsta vairāk nekā 4600 REST API datu avotus ar nepārtrauktu paplašināšanos, ko nodrošina lietotāju ģenerēti savienotāji.
Konkurē pret ETL milžiem, izmantojot pieeju, kas ir pirmais kods
Datu inženierijas ainava ir sadalīta atsevišķās nometnēs, no kurām katra apkalpo dažādas uzņēmuma vajadzības un izstrādātāju preferences.
Tradicionālās ETL platformas, piemēram Informātika un Talend dominē uzņēmumu vidēs ar uz GUI balstītiem rīkiem, kuriem nepieciešama specializēta apmācība, taču tie piedāvā visaptverošas pārvaldības funkcijas.
Jaunākas SaaS platformas, piemēram Fivetran ir guvuši vilces spēku, uzsverot iepriekš izveidotos savienotājus un pārvaldīto infrastruktūru, samazinot darbības pieskaitāmās izmaksas, wager radot atkarību no pārdevēja.
Atvērtā koda dlt bibliotēka ieņem būtiski atšķirīgu pozīciju kā pirmā koda, LLM vietējā infrastruktūra, kuru izstrādātāji var paplašināt un pielāgot.
"Mēs vienmēr uzskatām, ka DLT ir jābūt sadarbspējīgam un modulāram," Kržikovskis paskaidroja. "To var izvietot jebkur. Tas var būt uz Lambda. Tā bieži kļūst par daļu no citu cilvēku datu infrastruktūras."
Šī pozicionēšana atspoguļo plašāku pāreju uz to, ko nozare sauc par saliekamo datu steku, kur uzņēmumi veido infrastruktūru no sadarbspējīgām sastāvdaļām, nevis monolītām platformām.
Vēl svarīgāk ir tas, ka krustojums ar AI rada jaunu tirgus dinamiku.
"LLM neaizstāj datu inženierus," Kržikovskis teica. "Wager tie radikāli paplašina savu sasniedzamību un produktivitāti."
Ko tas nozīmē uzņēmumu datu vadītājiem
Uzņēmumiem, kas vēlas vadīt AI vadītas darbības, šī attīstība ir iespēja fundamentāli pārdomāt datu inženierijas stratēģijas.
Tūlītējās taktiskās priekšrocības ir acīmredzamas. Organizācijas var izmantot esošos Python izstrādātājus, nevis nolīgt specializētas datu inženieru komandas. Organizācijas, kas pielāgo savus instrumentus un pārgājienu pieejas, lai izmantotu šo tendenci, var atrast ievērojamas izmaksu un veiklības priekšrocības salīdzinājumā ar konkurentiem, kas joprojām ir atkarīgi no tradicionālās, komandas intensīvās datu inženierijas.
Jautājums nav par to, vai šī pāreja uz demokratizētu datu inženieriju notiks. Tas ir tas, cik ātri uzņēmumi pielāgojas, lai to gūtu.













