Problemet med Big Data

ball-of-dataBig data er hypet for tiden og selv om det dækker over noget meget nørdet, så er det et begreb som mange andre end data-nørderne interesserer sig for. Som det så ofte sker, når forskellige faggrupper interesserer sig for et begreb, så er begrebet Big Data blevet udvandet. Big Data kan betyde store serverfarme, kortlægning af et nyt stort datafelt, real-tids sensordata på mange parametre, særlige tiltag i forhold til persistering og læsning eller det kan bare betyde at man bruger flere data end man tidligere gjorde såsom når en virksomhed ser nærmere på hvad deres kunder rent faktisk foretager sig på deres hjemmeside, hvordan kunderne bruger et produkt eller hvem kunderne statistisk set er.

Big data bliver ofte præsenteret som svaret på hvordan du optimerer din virksomhed, men i virkeligheden er data bare data. Uden indsigt i hvilke spørgsmål du kan/bør søge svar på i dine datamængder opnår du ingen optimering. At formulere disse spørgsmål er den virkelige udfordring og kræver særlig indsigt i den forretning man forsøger at optimere.

Dertil kommer udfordringen med hvilke data du egentlig skal gemme. Hvis du gerne vil vide hvornår din hardware-dims (statistisk set og ud fra sigende måleparametre) går i stykker, så du kan udskifte den på et nær-optimalt tidspunkt, så skal du have gemt disse data i lang tid for at kunne analysere dig frem til et mønster og bruge dette på fremtidige instanser. Hvad hvis den mest sigende måleparameter er temperatur, men du ikke ved det fordi du ikke gemmer de data? At finde et mønster og indsamle disse data er mindst lige så stor udfordring som at gemme og håndtere dem. Erfaring og gut feeling er nødvendige for at vide hvor man skal kigge efter svar og hvilke data man kan smide væk.

Vores hjerner håndterer konstant store datamængder fra diverse sanseindtryk, men samtidig er hjernen meget påpasselig med hvad der bliver gemt. Vi kan kun huske et lille udsnit af vores oplevelser med mindre man lider af hyperthymesia populært beskrevet som manglende evne til at glemme. Interviews med folk der lider af hyperthymesia har afsløret, at de kan opleve det som en byrde at kunne huske alt – det gør dem handlingslammede og får dem til at at leve i fortiden. Populært sagt skal man huske at glemme – og så håbe på at vi ikke glemmer noget alt for essentielt. Det er langt sværere at skabe overblik i en datamængde, hvis der er for meget støj i form af ligegyldige data.

Big data er fuldstændig bygget op på fortiden (og nutiden). Vi kan forudsige fremtiden med big data hvis og kun hvis denne fremtid ligner fortiden. I domæner med få mønstre og stor omskiftelighed er big data magtesløs.

Dette er bare de udfordringer som skal være på plads før vi kan tale om de tekniske udfordringer i at håndtere Big Data. NoSQL, machine learning, A/B-tests, natural language processing, signalbehandling, søgeteknologi, simuleringer og visualiseringer er de tekniske begreber som ofte bliver nævnt i forbindelse med big data håndtering. Succesen i praksis med disse tekniske tiltag vil altid være afgjort af at de ikke-tekniske (ofte forretningsmæssige) forudsætninger er på plads inden.

Big data er ikke en silver bullet, som Kim Falk så rigtigt påpeger i sit forrige indlæg.

16 comments for “Problemet med Big Data

  1. Som jeg læser dit blogindlæg, så er det kunsten at kunne anlægge et kvalitativt syn på kvantitet, der er værdifuldt mht. Big Data. Altså, kunsten at kunne finde nålen i høstakken.

    Det oplevede jeg faktisk fra sidelinjen i 1987. Sådan “Big Data anno 1987”.

    I 1987 var jeg i et års praktik hos Brüel & Kjær i forbindelse med mit ingeniørstudie. På det tidspunkt var Brüel & Kjær i fuld sving med at designe, bygge og implementereet et overvågningssystem til Statoil’s boreplatforme, der skulle rationalisere vedligeholdelsen.

    Filosofien bag overvågningssystemet var at et produktionsstop for en reperation kostede millioner og et stop for to reperationer kostede det halve etc.

    Tusindvis af sensore skulle samle informationer ind om vibrationerne i alle bevægelige, mekaniske dele i processen fra olielomme til opsamling af olie i tanke for at planlægge hvornår mere en del kunne udskiftes på forkant før den gik i stykker.

    Hvis fx et tandhjul med 100 tænder mistede en tand, så ville der opstå en “mislyd” med en frekvens på 1/100 af tandhjulets normale vibrationer. For hver 100 tænders “anslag” ville et “anslag” mangle.

  2. Fed anekdote Thomas.

    Jeg har en svaghed for anekdoter om at bruge sensordata i forhold til at få en produktion til at køre. Fik engang en fra Vestas til at fortælle mig om hvilke dele af en vindmølle man kunne overvåge og udskifte inden de gik i stykker. Det er selvfølgelig dyrt at udskifte noget der fungerer, men som du skriver så er nedetid også dyrt, så det er en afvejning. Mislyde, udsættelse for en max/min. temperatur og selvfølgelig også en lille ting som alder kan alle være gode indikationer til en udskiftning.

  3. Godt blog-indlæg om hvor bredt et emne Big Data egentlig er. Du skriver at hvis der er få mønstre og stor omskiftelighed, så er det svært at få noget meningsfuldt ud af Big Data. Her tænkte jeg på om der findes nogle adaptive algoritmer til at håndtere denne type data. Jeg har lidt erfaring med adaptive filtre (http://en.wikipedia.org/wiki/Adaptive_filter) i digital signal processering af netop data, der er omskifteligt (i min tid som radar-softwareudvikler). Det adaptive filter ændrer sig hele tiden som funktion af ny data og nye mønstre. Det kunne være spændende at se om det giver mening at bruge adaptive filtre inden for Big Data domænet, eller om det allerede findes derude?

  4. Det meste machine learning virker ved at du laver en model som du parametrisér, således at du har styr over hvad du vil forudse, så at sige. Det nemmeste er at forudse ting som allerede er sket før, så som solstorme, eller regerings partier forlader regeringen. Mens de er svært at få en maskine til at forudse at en landsby bliver angrebet af zombier, da hverken vi og endnu mindre maskinerne ved hvilke tegn man skal kigge efter, selvom der stadig er folk der prøver at lave estimater over hvorvidt det vil ske :),

    Ofte machine learning handler om at tage en masse data, prøver at estimere den bedste funktion, som givet noget nyt input giver det rigtige svar, så som givet jeg har købt den og den bog, så er der stor mulighed for at jeg også gerne vil købe den, eller hvis der er en sjov lyd to steder på en boreplatform, med den rigtige “dårlige” lyd, så må man hellere stoppe….

    Det tager lang tid at justere den funktion og man vil derfor helst undgå at kører hele trænings session ingen hver gang der kommer noget nyt data. Adaptive filtre (og her kan jeg godt være forkert på den) handler om at denne funktion man bruger kan opdateres hurtig og uden at man behøves at starte med at køre det hele igennem igen.

    • Jeg har umiddelbart ingen erfaring med adaptive filtre, men det Kim siger lyder klogt :).

      Det jeg mente var at big data er magtesløst, hvis ikke der findes meningsfulde mønstre/modeller, som man kan bruge til at hægte forudsigelser op på. F.eks. hvis det er helt tilfældigt hvem der vinder Melodi Grand Prix (som det til tider kan virke som om, men data taler imod) – så kan big data ikke hjælpe med at forudsige en vinder.

  5. Det er næppe et problem at gemme for meget data. Om du filtrerer data før eller efter du gemmer er ligegyldigt. Hvis du ikke er i stand til at lave et filter som smider det overflødige data væk, er det fordi du ikke ved hvad du gemmer. Så har du helt andre problemer. Hjerneanalogien holder ikke, da dem som lider af hyperthymesia har et defekt filter om du vil.

    I softwareverdnen er det nemt at tilpasse filtret, men filtrerer du før du gemmer, har du smidt noget væk du måske kunne bruge senere.

    • Selvfølgelig er det et problem at gemme for meget data – man kan ikke gemme alt. Det tager længere tid at søge igennem store datamængder.

      Derudover koster det penge – især når man bruger cloud-services, men det gælder i alle situationer, det er kun et spørgsmål om beløbet.

      • Det er klart at der er omkostninger forbundet med at gemme overflødig data. Omvendt kan der også være en pris ved ikke at gemme nok data. Hvad angår søgetiden, afhænger det af hvordan du organiserer data.

        Du er jo tilbage til vandfaldsmodellen med alt hvad den indbefatter, hvis du på forhånd skal vide hvad der skal gemmes til brug for fremtidige analyser.

        • Er vi enige om at man ikke kan gemme alle data i hele verden til en enkelt model?

          Ergo skal man, som jeg skriver, bruge erfaring og gut feeling til at smide noget væk igen efter man har konkluderet at det ikke giver et godt billede af domænet. Den erfaring siger at man ikke bare skal smide alt data væk som man ikke umiddelbart bruger – der er data som kan være brugbart i fremtidige modeller. Du kan godt kalde det vandfald at man skal forvente fremtidige brugssituationer, men man har reelt ikke andre muligheder, hvis man ikke har uendelige resourcer. Enhver konsulent vil samtidig sige “it depends” – for selvfølgelig kan man forestille sig en situation, hvor det er muligt at gemme alle data for et domæne i al evighed, men der er vi vist ude i at skulle skelne mellem hvad der er data og hvad der er big data-situationer. Meget få virksomheder i DK kan præstere at generere big data som defineret på f.eks. http://en.wikipedia.org/wiki/Big_data.

          • At man ikke kan gemme al data i hele verden er så vag en præmis, at hvad end du konkluderer på den baggrund vil være værdiløs.

            Men det har vel altid været sådan at man ikke kan gemme alt. Det ændrer Big Data intet ved. Big Data handler nu heller ikke så meget om datamængde, men mere om brugen af data. Der ligger masser af ubrugt data i virksomhederne, så det handler om hvordan man får gjort brug af dem og knyttet dem sammen på tværs af systemer og organisationer. At påstå at man er nødt til at klarlægge behovet for hvad der skal gemmes først, vil jeg mene er misforstået, da data allerede er der.

          • Det er så der jeg synes du er lidt ensidig i din måde at tænke på. At afvise at det nogensinde kan være nødvendig at glemme data – som du skrev i din første kommentar, er efter min mening fantasiløst. Jeg har selv arbejder på et system som er nød til at glemme alt data hvert 20 minut (og kun gemme et mellemresultat), fordi det arbejder i et domæne hvor der kommer meget data og det ikke kan betale sig at gemme mere i forhold til omkostninger.

  6. Faktisk burde man kun tage beslutninger baseret på alt data i hele verden, men siden det ikke er muligt prøver man an approximer baseret på de data man har. Sådan er det med statistik såvel som machine learning.

    Hvis du, som Therese skriver, har meget data, så bliver du selvfølgelig nød til at slette data. Forstil dig at det drejer som om tusindvis a brugere som bare laver 1 kb af data hver dag, hvis du begynder at gange op, så bliver det hurtigt til noget som ikke er økonomisk at gemme, eller giver mening at gøre det.

    • Det kommer an på om vi taler om en bolchebutik eller et seriøst foretagne. Eksempelvis tvivler jeg på at hverken DMI eller CERN smider data væk. Taler vi derimod om et startup hvor hver eneste nye bruger er forbundet med en omkostning er det en anden sag. Problemet er at det gennemsnitlige startup næppe lever længe nok til at Big Data bliver interessant.

      • Rart at se at du vil indrømme at der er forskel på domæner og deres behov. Synd du har brug for at bruge nedsættende udtryk til at fremsætte den indrømmelse – de spillere på markedet der ikke har uendelige ressourcer er også seriøse.

        • Jeg ved ikke hvorfor du opfatter det som nedsættende. Det var ikke min intention. Jeg har selv været part i en “bolchebutik” hvor ressourcerne var begrænsede.

          Dit blogindlæg havde ikke en økonomisk vinkel, så jeg overvejede ikke at økonomi var en begrænsende faktor. Det er naturligvis klart at hvis der kun er råd til x antal bytes om måneden, er man nødsaget til at begrænse sig til dette kvantum. Så skulle det være slået fast.

          Men så handler det vel mere om virksomhedens modenhed end domænet.

  7. […] er en ivrig debattør på vores side, og blandt andet skrev en masse kommentar på Thereses post [Problemet med big data], skrev jeg til DMI for at høre hvordan de rent faktisk håndterede alle disse data. De var meget […]

Skriv et svar til Therese Hansen Annuller svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *