En tysk bilproducent, en spansk bank og en norsk it-virksomhed med olieindustrien som kunde leverer problemstillingerne og de store mængder data, som nyudviklet software skal omsætte til kloge beslutninger. Projektet involverer også norske og spanske universiteter, og målet er at skabe et værktøj, som er fleksibelt nok til at favne vidt forskellige brancher, forklarer direktør Anders L. Madsen fra Hugin Expert A/S, som er fagligt ansvarlig for AMIDST-projektet ("Analysis of MassIve Data STreams") med et budget på knap 30 millioner kroner (3,9 millioner euro):
- I bilerne handler det om at forudsige, når andre trafikanter skærer ind foran ved vognbaneskift. Bankeksemplet har 1000 forskellige oplysninger om hver af de fire millioner kunder, hvor vi skal finde tabsgivende mønstre. Og olieeksemplet skal bruge omfattende målinger fra sensorer til at advare, når noget er ved at gå galt under en boring. Det er tre fantastisk gode og meget konkrete eksempler, som stiller vidt forskellige krav, men som alle vil vise, hvad den her type software kan, når vi bliver i stand til at skalere det op til at fungere med massive strømme af data, siger Anders L. Madsen.
Hugin Expert A/S udvikler i forvejen software til beslutningsstøttesystemer, så opskaleringen kommer til at gavne både nye og eksisterende brugere, der eksempelvis benytter teknologien til risikovurdering i kredit- og forsikringsspørgsmål, miljøovervågning eller kontrol af processer i industrien.
- Vi bringer værktøjet til et nyt niveau, så det ikke kløjs i store datamængder. Det bliver udvidet til at kunne klare meget større opgaver på passende hardware. Hardware er meget vigtig, og algoritmerne må ikke være begrænsede på det område. De skal kunne skaleres til at køre på den hardware, der er tilgængelig, understreger Anders L. Madsen.
Fra supercomputer til lommeapparat
Aalborg Universitet er repræsenteret ved lektor Thomas Dyhre Nielsen fra Institut for Datalogis særlige forskningsgruppe for MaskinIntelligens. Han har fokus på de modeller og algoritmer, projektet skal udvikle:
- Maskinindlæringen bliver en af de store udfordringer, når vi får datastrømmene ind og skal prøve at lave forudsigelser på baggrund af dem. De modeller, vi udvikler, skal primært læres på baggrund af de data, vi får ind fra samarbejdspartnerne i projektet. Modellerne skal være en del et samlet rammeværk, som kan favne de tre konkrete anvendelseseksempler i projektet, selv om de repræsenterer forskellige typer data og skal køre på platforme med forskellige ressourcer, siger Thomas Dyhre Nielsen.
Som forsker har han adgang til supercomputere med masser af regnekraft, men en af udfordringerne i håndteringen af de massive datastrømme er at klare sig med de ressourcer, der er til rådighed:
- Supercomputere og hurtigere almindelige desktopcomputere muliggør ting, vi ikke tidligere kunne. Men for nogle modeller kan der være behov for at udvikle smarte algoritmer, der kan lave en afvejning mellem præcisionen og den beregningsmæssige kompleksitet for at sikre, at algoritmerne kan afvikles i realistisk tid på det apparat, der skal køre dem, siger Thomas Dyhre Nielsen.
Hugin Experts direktør Anders L. Madsen nævner forsøget med bilerne som eksempel på en nødvendig afvejning, fordi de mange sensor-data fra Daimlers køretøjer vil sætte teknik og software på en hård prøve:
- Det handler om at øge sikkerheden, når man kommer kørende med over 100 km/t og der er biler omkring en. Sensorerne indsamler 22 millioner målinger i timen. Hvis der kommer nye data for hver 40 millisekunder, så nytter det ikke, at man skal bruge 60 millisekunder på beregninger. Det skal kunne følge med. Men processorkraften i en bil er så begrænset, at den får din mobiltelefon til at ligne en ninjacomputer i sammenligning. Det skal vi tage højde for.
Liv og penge på spil
En løsning, som kan være med til at forhindre bilister i at støde sammen med høj fart, har i sagens natur potentiale til at redde liv. EU har tidligere formuleret en målsætning om at reducere antallet af trafikdræbte med 50 procent fra 2011 til 2020, og der kan AMIDST spille en rolle sammen med andre initiativer.
I de øvrige delprojekter er det først og fremmest penge, der er på spil. Men mange af dem. Finansløsningen til den spanske bank Cajamar vil ifølge estimater fra banken kunne spare den for 56 millioner kroner (7,5 millioner euro) om året, hvis det lever op til forventningerne om at forudse og afværge tab på dårlige kunder. Den norske it-leverandør Verdande Technology, som udvikler specialiseret software til olieindustrien, regner også med at kunne spare slutbrugerne for dyr nede-tid ved nye undergrunds-boringer.
Biler, banker og boringer er derfor gode eksempler, men ifølge faglig koordinator Anders L. Madsen kunne det lige så godt have været andre brancher med andre udfordringer, der lagde strømme af data til:
- Banker og forsikringsselskaber er ved at drukne i data. Men det kan også være på det medicinske område, i produktionsvirksomheders processer eller indlejret i printere, biler og ubåde. Man taler meget om Big Data, men det her er anderledes, fordi vi arbejder med strømme af strukturerede data, hvor vi godt ved, hvad vi måler på. Vores udfordring er at få datastrømmen analyseret og omsat til en grafisk repræsentation, siger Hugin-direktøren.
Kontakt
- Direktør Anders L. Madsen (faglig koordinator), Hugin Expert A/S, tlf. 9655 0791.
- Lektor Thomas Dyhre Nielsen, Institut for Datalogi, tlf. 9940 8853.
- Administrativ projektleder Anne Rommerdahl Bock, Aalborg Universitet, tlf. 9940 7584.
- Videnskabsjournalist Carsten Nielsen, Aalborg Universitet, mobil 2340 6554.
Fakta
- AMIDST ("Analysis of MassIve Data STreams") skal udvikle et skalerbart værktøj til effektiv analyse og forudsigelse baseret på information opfanget i strømmende data. Det inkluderer udvikling og implementering af metoder og algoritmer til skalerbar dataanalyse med såkaldte probabilistiske grafiske modeller.
- Modellerne bruger sandsynlighedsteori til at finde rundt i de mange indbyrdes afhængige variabler, uanset om det er gæld og indkomst ved en kreditvurdering eller fart og afstand ved en analyse af risikoen for sammenstød mellem to biler.
- Projektet, som løber fra 1.1.2014 til 31.12.2016, har et samlet budget på 3.922.756 euro (ca. 29,3 millioner kroner), og heraf bidrager EU med 2.762.000 euro (ca. 20,6 millioner kroner). Læs mere på amidst.eu.
- Partnerne i projektet er Aalborg Universitets Institut for Datalogi ved forskningsgruppen for MaskinIntelligens (MI), Universidad de Almeria (Spanien), Hugin Expert A/S, Norges Teknisk-Naturvitenskapelige Universitet, Daimler AG (Tyskland), Verdande Technology (Norge), Cajas Rurales Unidas Sociedad Cooperativa de Credito (Spanien).