1. Resumé
Analyse af Big Data forventes at ville spille en stigende rolle i samfundet i de kommende år, og f.eks. bidrage til ny viden, nye produkter, nye services, samt mange effektiviseringer. Baseret blandt andet på Danmarks digitale førerposition og stærke interdisciplinære forskningsmiljøer, foreslås iværksættelsen af forsknings- og innovationsindsatser inden for Big Data analyse, med det mål at levere nye effektive analyse metoder og derved medvirke til at levere løsninger til en række samfundsmæssige udfordringer og til udviklingen af nye innovative produkter.
2. Samfundsudfordringer og/eller muligheder
Over det meste af verden ændrer digitalisering i disse år samfundet radikalt. Digitaliseringen har medført, at vi i dag oplever en eksponentiel vækst i størrelsen af de data, vi opsamler. Det estimeres, at der i 2012 eksisterede 2.7 Zettabytes (2700 milliarder Gigabytes) data og at dette tal vil gro til 40 Zettabytes i 2020; vi producerer nu på to dage lige så meget data som der blev produceret fra civilisationens start frem til 2003! Vi er for alvor i Big Data tidsalderen.
Der er en voksende forståelse for, at effektiv brug og analyse af data kan bidrage til radikal ny viden og værdi inden for forskningen, indenfor erhvervslivet, i den offentlige sektor og i samfundet generelt. Flere specialudgaver af de førende videnskabelige tidsskrifter Science og Nature har f.eks. sat fokus på de muligheder Big Data repræsenterer inden for forskningen, og eksempelvis fremhævet hvordan et paradigmeskift finder sted på baggrund af tilgængelighed af store mængder højkvalitets data. Hvor forskere tidligere ofte brugte lang tid på omhyggeligt at planlægge og udføre
eksperimenter, efterfulgt af forholdsvis mindre tid på analyse af indsamlet data, ser vi nu et skift herimod en situation, hvor en stor del af forskningstiden bliver brugt på analyse af eksisterende enorme dataset fra en lang række kilder med henblik på at opnå nye videnskabelige resultater. Data organisering, transformering og analyse spiller med andre ord en stigende rolle i forskningen. Tilsvarende har f.eks. specialudgaver af The Economist fremhævet det store potentiale i data i erhvervslivet, og i de seneste år har vi set, hvordan etablerede virksomheder i en række erhvervsområder er blevet udfordret af nye virksomheder baseret på dataindsamling, organisering og analyse, ligesom en række virksomheder udvikler helt nye forretningsmodeller baseret på data. Også i den offentlige sektor spiller data en større og større rolle, ikke mindst i forhold til at effektivisere, men også i forhold til at udvikle nye services for borgerne. Dette er også afspejlet i statens ambitiøse program for at frigive grunddata
(data om geografi, bygninger, borgere, virksomheder, osv.) samt en lang række kommuners ”open data” programmer.
Big Data forventes at spille en stigende rolle i de kommende år, ikke blot i forhold til erhvervslivet, men også i forbindelse med en række samfundsudfordringer indenfor f.eks. fødevarer, sundhed, klima, samt en lang række andre områder såsom uddannelse, transport, miljøovervågning, og energi- og vandforsyning. Ikke mindst i kraft af en digital førerposition og en velfungerende og datadrevet offentlig sektor er Danmark i en god position både i forhold til at udnytte Big Data løsning og i forhold til at udvikle nye produkter og løsninger baseret på Big Data.
3. Forskningsbehov
På trods af det store potentiale er alle de mange muligheder i Big Data slet ikke udnyttet endnu. Eksempelvis estimeres det, at ud af de eksisterende næsten 3 Zettabytes data er kun 3% annoteret med metadata og endnu mindre analyseret. At så lidt af den tilgængelige data er blevet analyseret, understreger dels en underudnyttelse af tilgængelige analysemetoder, dels et behov for udvikling af nye metoder og teknikker til analyse af Big Data. Dette peger igen på forskningsbehov inden for et bredt spektrum af områder.
Der er behov for grundlæggende forskningsarbejde inden for en række områder i relation til dataanalyse. Dette gælder ikke mindst fundamentale datalogiske områder, omkring hvordan data struktureres, så relevant data effektivt kan identificeres (data organisering), hvordan data kan fremstilles, så en menneskelig analyseproces understøttes bedst muligt (visualisering), hvordan en række analyseprocesser kan foretages hurtigt (effektive algoritmer), samt hvordan forudsigelser om ny data kan laves ved brug af modeller baseret på tidligere data (machine learning). Også områder
i forbindelse med effektiv udnyttelse af supercomputer faciliteter og i forhold til sikring af anonymitet af personlige data er væsentlige. Ikke mindst i grænsefeltet mellem alle disse områder, f.eks. i forhold til hvordan algoritmiske teknikker kan bruges til at udvikle mere effektive machine learning teknikker, er der også en række forskningsmæssige udfordringer.
Der er ligeledes behov for tværvidenskabeligt forskningssamarbejde i forhold til dels at sikre at de udviklede grundlæggende teknikker adresserer relevante og væsentlige problemstillinger, dels at de nyeste analyseteknikker udnyttes mest muligt i relevante forskningsområder. Et sådant sådant samarbejde vil således involvere metodiske forskere i f.eks. matematik, statistik og datalogi, samt forskere i en meget lang række andre naturvidenskabelige områder som f.eks. molekylærbiologi, biologi, miljø, fødevarer, over medicin til samfundsfag og humaniora.
Endelig er der behov for en innovationsindsats i forhold til ligeledes at sikre vekselvirkning mellem relevante Big Data analyse forskningsmiljøer og virksomheder samt offentlige institutioner.
4. Forhold vedrørende udmøntning og implementering af forskningsindsatsen
Som det fremgår af ovenstående, er det vigtigt at sikre en forankring af forskningsindsatsen i forskningsgrupper, som adresserer fundamentale metodiske problemstillinger inden for dataanalyse, samtidig med at relevans og udnyttelse sikres gennem udpræget tværvidenskabelig samarbejde, og samarbejde mellem forskere, virksomheder og offentlige institutioner. Samtidig skal indsatsen selvsagt koordineres med internationale indsatser, ikke mindst Horizon 2020, samt de adskillige igangværende og planlagte relevante forskningsmæssige, offentlige og erhvervsmæssige infrastruktur projekter.
5. Danske forudsætninger
Danmark har meget stærke forudsætninger for en stærk forsknings- og innovationsindsats inden for Big Data analyse. Ikke blot eksisterer der i Danmark overordentlig stærke datalogiske forskningsmiljøer indenfor f.eks. data organisering og visualisering, algoritmer, machine learning, supercomputing og kryptologi, samt meget stærke matematisk og statistiske miljøer inden for modellering og analyse, men der er også stærke tværfaglige miljøer med fokus på dataanalyse f.eks. inden for bioinformatik. Generelt har Danmark en stærk tradition for tværfagligt samarbejde inden
for dataanalyse, ligesom store infrastrukturprojekter såsom ESS data centeret i København er med til at opbygge stærke dataanalyse miljøer. Den stærke danske offentlige sektor med fokus på digitalisering og open data, ligesom den store grad af digitalisering i det danske samfund generelt, styrker forudsætningerne yderligere. Endelig er der en række stærke virksomheder i Danmark inden for en række områder som eksempelvis miljø, vand, energi, og fødevarer, hvor Big Data analyse forventes at ville spille en afgørende rolle i fremtiden.
6. Mål, effekt og perspektiver
En stærk satsning på Big Data analyse vil medvirke til (videre-) udviklingen af stærke forsknings- og innovationsmiljøer, der leverer løsninger til en række samfundsmæssige udfordringer, samt medvirker til udviklingen af innovative produkter i et tiltagende data-drevet samfund. Satsningen vil altså være med til at styrke Danmarks digitale førerposition.
7. Kontaktperson
Professor Lars Arge, Aarhus Universitet, large@cs.au.dk, +45 871-56284