Gå til indhold

Massive Data Mining by Sampling (MaDaMS)

Projektbeskrivelse

Jagt efter værdifulde mønstre i data, såkaldt "data mining", er i færd med at ændre den måde, vi forstår og analyserer vores omverden på. En vigtig grund er, at modeller baseret på data mining giver helt nye muligheder for at lave forudsigelser.

De enorme mængder af data, vi opsamler, giver dog en forskningsmæssig udfordring, der ligger til grund for at udnytte potentialet i data mining: Vi ønsker at kunne effektivisere jagten på de værdifulde mønstre i enorme mængder af data. Målet for projektet er at designe og demonstrere algoritmer, der effektivt kan håndtere komplekse data mining opgaver. Idéen er at acceptere en lille fejl i nøjagtigheden af resultaterne for til gengæld at få en uset effektivitet i beregningerne. For at kunne bygge fremtidens kraftfulde modeller skal vi kunne håndtere milliarder af hypoteser om mønstre i gigabytes af data og opefter. Projektets leder har tidligere reduceret ressourceforbruget i data mining algoritmer med flere størrelsesordener.

Projektet omhandler tre anvendelsesområder for data mining: Financielle tidsserier (med anvendelse i investeringsstrategier), forbindelser mellem genetisk information og observerede karakteristika hos kvæg (med anvendelse i avlsarbejde), samt brugeradfærd i e-handel (med anvendelse i systemer til anbefaling af varer). Til hvert område er knyttet en ph.d. studerende og en ekstern partner, der bidrager med data og viden om anvendelsesområdet. Arbejdet vil i øvrigt ske i samspil med ledende internationale forskningsgrupper.

Senest opdateret 23. april 2013