Hadoop suksess krever unngåelse av tidligere datafeil

Av Doug Bryan

For 21 år siden, et år før den første nettleseren dukket opp, overskred Walmarts Teradata-datavarehus en terabyte med data og startet en revolusjon innen forsyningskjeden analyse. I dag gjør Hadoop det samme for etterspørselkjeden analyse. Spørsmålet er, vil vi bare legge til flere nuller til lagringskapasiteten vår denne gangen, eller vil vi lære av feilene i datalagerets infrastruktur?

Disse feilene inkluderer:

  • datasilo,
  • organisasjonssiloer, og
  • forvirrende hastighet med responstid

Datasiloer

En datasilo er et system som har mange innganger, men få utganger. Wikipedia-siden for "datavarehus" viser et arkitekturdiagram med operativsystemer til venstre, datamars til høyre, og et "datahvelv" i midten, men den tredje definisjonen av "hvelv" på Merriam-Webster.com er "et gravkammer." Altfor ofte har datavarehus blitt datakravkamre, eller kanskje datahospysanlegg: steder der data går til dø.

For å forhindre at dette skjer med Hadoop-systemer trenger vi flere teknikker for å få data ut fra det sentrale datalageret til mennesker og andre systemer. Noen få datamars er ikke tilstrekkelig lenger for å få kontakt med utviklingspartnere, annonseteknologileverandører og de mange kundepekepunktene som er tilgjengelige for detaljister og merker.

Dataeksportteknikker skal dekke en rekke ytelsesegenskaper, slik at den beste teknikken kan brukes for hvert brukstilfelle. Slike teknikker inkluderer:

  • Bra ol 'batch FTP av flatfiler, XML-filer og kompakte binære filformater som Avro
  • Publiser-abonner meldingsgrensesnitt, også bedriftsmeldingsbusser, for eksempel Kafka
  • Sanntids REST APIer bygd på høyhastighetsdatabaser som HBase og Voldemort
  • OLAP og datavisualisering brukergrensesnitt for forretningsanalytikere som ikke er dataforskere, for eksempel Pentaho, Tableau og Simba for Excel

La oss vurdere de to siste mer detaljert. For det første betyr "sanntid" forskjellige ting for forskjellige mennesker. Femti millisekunder (1/20 sekund) er sanntid for aksjehandel. Google fant ut at en økning på 500 millisekunder (1/2 sekund) i lastetid for sider reduserer trafikken med 20%, og Amazon fant at til og med en økning på 100 millisekunder (1/10 sekund) i lastetiden reduserer inntektene på detaljhandelssiden betydelig.

En tiendedel av den andre responstiden er en høy linje for API-er. For å oppnå det på 95. persentilen, trenger forhandlere flere datasentre per marked, slik at kjøpere alltid bruker et datasenter som ligger i nærheten, og dermed minimerer responstiden. Kort sagt, de trenger flere front-end datasentre for hvert Hadoop backend datasenter.

For det andre er OLAP og datavisualisering del av en spennende bransjetrend mot "demokratisering av data" der målet er å gjøre det mulig for folk å få tilgang til nødvendige data i stedet for å dirigere spørsmål gjennom en sentral analytisk avdeling. Nike FuelBand, Fitbit og 23andMe er eksempler på denne trenden innen forbrukerprodukter, og OLAP og datavisualisering muliggjør teknologier for forretningsbrukere. Demokratisering av data holder løftet om å forhindre en annen stor datavarehusfeil fra fortiden: organisasjonssiloer.

Organisasjonssiloer

En organisasjonssilo, som en datasilo, har mange innspill, men få utganger: det er en flaskehals for folk. For ofte hvis en forretningsanalytiker ønsket data de måtte gå til et sentralt analyseteam, vent i kø, få analyseteamet til å forstå behovet deres, vent noen dager på resultatene, innse at resultatene ikke var det de trodde de ville ha bedt om, og gjenta prosessen til den ene siden ga opp. Når forretningsanalytikere så klager og spør hvorfor i all verden det kan ta så lang tid, sier analytics bare: "Det er mye matematikk involvert. Du ville ikke forstå." I løpet av de siste 20 årene har denne situasjonen skapt en slags analytisk aristokrati som ikke er veldig nyttig. Hvis store selskaper kan lage slike organisasjonssiloer med SQL, BI og SAS, kan du bare forestille deg hva slags siloer de vil være i stand til å lage med de nye teknologiene Hadoop, MapReduce og R. Datademokratisering er kuren for organisasjonssiloene.

Hastighet vs. responstid

Den siste datalagerfeilen vi kan unngå med Hadoop-systemer, er forvirrende hastighet for responstid. Tenk på en analogi.

Anta at du sender en pakke fra Los Angeles til San Francisco, men på grunn av leverandørens infrastruktur, går den gjennom Memphis. Hvis det tar 12 timer fra LA til Memphis (1.800 miles) og 12 timer fra Memphis til San Francisco (2000 miles), er det 3.800 miles på 24 timer eller 158 miles per time. Ganske fort. Men hvis du kutter ut Memphis og går direkte fra LA til San Francisco (380 miles) på 12 timer, er det bare 32 miles per time: ganske treg. Likevel får den tregere ruten pakken levert 12 timer tidligere.

Poenget er at hastigheten skal måles fra kundens synspunkt, ikke infrastrukturens, siden infrastruktur bare eksisterer for å betjene kunden.

Følgende diagram viser hva som pleide å være en typisk dataflyt fra en kunde, gjennom et datavarehus, og deretter tilbake til kunden, der hvert av de åtte trinnene ble planlagt og kjørt i batch. Selv om hver kobling er rask, er hele turen ganske treg.

Med skybaserte Hadoop-systemer kan vi forenkle dette og øke responstiden kraftig. Data skyves direkte fra Hadoop til frontend for bruk av sanntids APIer, og til datamars for bruk av forretningsanalytikere. I stedet for å oppdatere kundeattributter daglig, ukentlig eller kvartalsvis, muliggjør denne arkitekturen sanntidsoppdateringer, klikk-for-klikk.

Bunnlinjen

Hadoop har et enormt løfte om å legge mange flere nuller til lagrings- og analysekapasiteten, og transformere selskaper til å være mer datadrevet. Men for å nå sitt fulle potensiale, bør vi unngå fortidens feil. Ellers er vi inne i ytterligere tjue år med siloer, aristokratier og mangelfulle responstider, eller som aristokrater noen ganger sier, "forskjellige tre samme aper."


Doug Bryan er dataforsker hos RichRelevance. Før han begynte hos RichRelevance var han VP for Analytics hos iCrossing / Core Audience, et digitalt annonsebyrå og DMP eid av Hearst. Tidligere roller inkluderer å grunnlegge oppstart av betalt søk automatisk tilbudsgiver OptiMine, applikasjoner for kundes livssyklusadministrasjon av prediktiv analyse ved KXEN, produktanbefalingsteam hos Amazon.com, manager ved Accentures Center for Strategic Technology Research, og forskerstab og foreleser i datamaskin vitenskap ved Stanford University.

© Copyright 2021 | pepebotifarra.com