Uregerlig data

Big data er over det hele, og man skal gemme så meget data som man kan, og hele tiden prøve at indsamle mere.

Men hvad gør man så når man har alt det data, som er så stort at ens database spørger efter mere kaffe, hver gang man prøver at køre en forespørgsel på data, hvis din maskine ikke bare dør, og skal genstartes. Når man snakker om store mængder data handler det ikke kun om store kvantiteter, men også om mange features (eller kolonner i sql sprog)

Hvis man har penge og tid nok, kan man selvfølgelig købe større og hurtigere udstyr og lade det tage den tid det tager at tygge på det. Men hvad skal den overhovedet tygge på?

Bare fordi man har data, så er det jo ikke givet at der springer noget i øjnene ved at kigge på de ti første observationer. Hvordan finder man ud af om der er sammenhænge i data, eller mulighed for at bruge det til at forudsige andre ting.

Et spændende datasæt som er nemt tilgængeligt er Diamonds, der kommer med script sproget R (link), det spændende ved det her sæt er at det ikke er entydigt hvad der giver prisen på en diamant, en stor diamand kan godt være billig hvis dens klarhed er dårlig, men en klar stor diamant kan også være relativ billig hvis andre forhold ikke er til stedet, altså mange forskellige ting man skal tage i betragtning hvis man bruge det data sæt til at forudsige diamant priser. Så rigtig et sæt hvor man har mulighed for at slå sig løs.

Hvis nu man skal lave et site der forudsiger diamant priser, så er det en god ide at lave en analyse af de data man har til rådighed og tjekker om man faktisk kan lave sådanne forudsigelser. Og her er det at flere script sprog og frameworks er gode, da man hurtigt kan hacke et script sammen som viser resultater.

Exploratory Data Analysis (EDA) er en egenskab som mange snakker om for tiden, og definere den proces som bruges til at finde hoved og hale i data. Men fordi datasæt er så forskellige er det et område der er forholdsvist svært at lære, den største autoritet på området er en bog fra 1970 (link). Men den er så dyr at jeg er for nærig til at købe den. Men i takt med big data bølgen raser er der mere og mere interesse for EDA.

Til Årets Goto konference er der mulighed for at høre historier fra frontlinen i “Explorations in Interactive Visual Analytics: Supporting Analysis and Data Visualization at Scale”, hvor der bliver snakket scripts og metoder.

Følgende diagram er laver med et R library ved navnet GGally, det viser 2d grafer af hver feature med hver feature:

Rplot

Det er en af måderne at starte på. Diagrammet er genereret med følgende R-script:

library(GGally)
theme_set(theme_minimal(20))
ggpairs(diamonds)

Og illustrere et godt eksempel på hvorfor så mange bruger R (link) til at forstå data, for det kan så utroligt meget.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *