tech-dansk ordbog
Data af-hvad-formater?
CSV, JSON og mange andre…
Data kommer i mange former og størrelser.
Læs med og lær mere om de mest udbredte formater 🙂
Data bliver ofte kaldt det nye olie… Der sker især noget magisk, hvis man kan kalde det Big Data – så har det høj værdi. Ligesom olie har data dog ingen værdi, hvis vi ikke kan finde ud af at håndtere og bearbejde det. Hvis vi skal være gode til at bearbejde data, er det først og fremmest vigtigt at forstå de former og strukturer, data kommer i – også kaldet dataformater.
Hvad er et dataformat?
Før vi dykker ned i de mest udbredte dataformater, er det vigtigt at forstå, HVAD et dataformat overhovedet er?
Et dataformat er en standardiseret måde at strukturere data på og pakke data ind – dvs. en måde, som man er blevet enige om bredt i IT-miljøet. F.eks. kan vi have data i et tabelformat, som de fleste kender 🙂 Det betyder i bund og grund, at vi strukturerer data i rækker og kolonner. De fleste kender til et Excel-ark, hvor det er tydeligt, at data struktureres i rækker og kolonner. Et andet format, der understøtter rækker og kolonner, men hvor det er knap så tydeligt, er csv-filer. I csv-filer adskilles kolonner med et komma og en ny række indikeres med et linieskift. Længere nede gennemgår vi csv-filer lidt mere dybdegående.
Når vi sender data frem og tilbage imellem databaser eller til programmer, så er det selvfølgelig først og fremmest vigtigt, at data er rigtige – dvs. at værdierne er rigtige – men det er også vigtigt, at databasen eller programmet kan forstå at aflæse data, og det bliver meget nemmere, når vi allesammen er blevet enige om en struktureret måde at læse data på.
Vi gennemgår derfor nedenfor to af de mest udbredte dataformater, så du er godt klædt på til at gå ud i verden og begynde med at flytte rundt på data og bearbejde data.
De vigtigste dataformater
Herunder gennemgår vi nogle af de mest udbredte dataformater. Når du har nogenlunde styr på nedenstående, er du godt rustet til at kaste dig ud i at importere, bearbejde og strukturere data fra filer eller måske endda API’er.
De vigtigste dataformater
Herunder gennemgår vi nogle af de mest udbredte dataformater. Når du har nogenlunde styr på nedenstående, er du godt rustet til at kaste dig ud i at importere, bearbejde og strukturere data fra filer eller måske endda API’er.
CSV
På billedet ses et skærmprint af en csv-fil. Den øverste linie er alle kolonnenavnene. Kolonnenavnene er ikke altid inkluderet i en csv-fil – nogle gange starter data bare på linie et – men det er altid rart, når de er der, fordi så får man bedre en forståelse for data og man er også sikker på, at man har de rigtige kolonnenavne, hvis man f.eks. skal sammenligne med data fra en anden datakilde, som relaterer sig til disse data.
Når man kigger ned igennem rækkerne er det tydeligt, at der optræder en del kommaer, og hvis man kigger godt efter, kan man måske også se, at der for hver række er lige mange kommaer. Årsagen til dette er, at kommaerne angiver en ny kolonne. Data bliver altså ordnet i kolonner, hvor den første hedder “_id”, den næste kolonne hedder “time” osv. Hver gang der er et linieskift, starter en ny række i data. For hver række ordnes data under de korrekte kolonner alt efter hvilken position værdien står på i forhold til kommaerne.
Hvis du gerne vil kigge nærmere på csv-filen fra billedet, kan du downloade den oprindelige fil her.
JSON
I modsætning til CSV, som imiterer en tabelstruktur, er JSON et dataformat, der minder mere om en træstruktur eller et hierarki. Dvs. der er et topelement, som er selve JSON-elementet, og så forgrener data sig under dette JSON-element.
På billedet til venstre ses et eksempel på et JSON-element med informationer om Co-coders, som forgrener sig ned i underelementer med supplerende info, medarbejdere og andet.
Nedenfor har vi forsøgt at illustrere, hvordan JSON-elementet på billedet kunne se ud, hvis man skulle tegne det.
Når man tegner elementet, er det ret tydeligt at se, hvordan strukturen minder om et træ eller hierarki.
Få fingrene i noget JSON
Hvis du er nysgerrig på at lege med og se nogle data på JSON-format, så prøv at:
1) gå til følgende link (API for solcelledata fra Aarhus),
2) markér og kopier al tekst/data fra den nye fane,
3) gå til JSON viewer,
4) indsæt alle data fra link i pkt. 1 til ‘Text’-fanen i JSON viewer og
5) tryk derefter på ‘Viewer’-fanen.
Du har nu mulighed for at kigge ned i JSON-elementet på en brugervenlig måde og gå på opdagelse i de data, du har hentet fra API’et. Når du kigger på ‘Text’-fanen får du data i et råt JSON-format og på ‘Viewer’-fanen bliver det præsenteret på en overskuelig måde 🙂
- God fornøjelse!
Nu hvor du har fået styr på lidt forskellige dataformater, kan du prøve at kaste dig ud i et Python-projekt, hvor du indhenter og bearbejder data. Hvis du ikke har kodet Python før, kan du hoppe over og tage et kig på vores guide til at komme godt i gang med Python her.
Vi hepper på dig!
De bedste hilsner fra
Idéer til nye blogindlæg?
Skriv til os på hi@cocoders.dk og del dine ønsker til nye blogindlæg og guides.