Disputas om behandling av store datamengder


Hvordan skal man effektivt oppdage feil i et datasett på mange terabyte? Og hva gjør man dersom man ikke har data i det hele tatt? Rui Maximo Esteves har utviklet metoder for begge tilfeller.

Å oppdage feil før de skjer og skjønne årsaken til at de oppstår er svært viktig i mange bransjer.  Ved hjelp av datateknologi har vi effektive måter for å oppdage, og forhåpentligvis forhindre, at en feil oppstår. En stadig økende utfordring i dagens informasjonssamfunn er hva man skal gjøre når datamengden enten blir veldig stor eller veldig liten.

Rui Maximo Esteves har utviklet analytiske metoder for begge deler i doktorgradsavhandlingen “Cluster Analysis for Big Data and Failure Detection”, som han forsvarte ved Universitetet i Stavanger 18. mars.

– For bare ti år siden hadde ikke mobiltelefonen din sensorer. Nå er det sensorer over alt, og alt generer mye større mengder data, sier Esteves.

Epler og appelsiner
– La oss si du har en enorm eske med en million frukter oppi. Du vet at omtrent halvparten er epler og den andre halvparten appelsiner.  Du kan plukke opp en og en frukt fra esken og se på den om det er et eple eller en appelsin, men det tar veldig lang tid. Da bruker du en metode som kalles klyngeanalyse, sier Esteves.

Klyngeanalyse sorterer objekter i et datasett i grupper, som gjør at datasettet blir enklere å analysere. Metoden har vært kjent lenge, men informasjonsrevolusjonen de siste årene har gjort at datamengdene vi må forholde oss til har økt eksponentielt, og da støter man på problemer.

Under doktorgradsarbeidet utbedret Esteves eksisterende metoder slik at hans IT-kollega ved University of Purdue i USA, professor Thomas Hacker(!), kunne bruke klyngeanalyse i en superdatamaskin han arbeider med.

Fremmede frukter
Den andre problemstillingen Esteves så på, var hva vi skal gjøre når vi ikke har data i det hele tatt, et problem man eksempelvis kan støte på med sensorer i et oljefelt.

– La oss ta eksempelet med fruktene i esken igjen. Si at du nå er på en fremmed planet, og du har igjen samlet inn en eske med forskjellige frukter. Du kan plukke opp en tilfeldig frukt fra esken, men du aner ikke om det er et eple eller en appelsin, illustrerer han.

Den sinnrike metoden portugiseren kom opp med, var å dra nytte av det han kaller eksperthjelp.

– Du har en viss kunnskap på feltet ditt. Du ser på gjennomsnittet av fruktene i en gruppe. Den ser ut som en appelsin og den smaker som en appelsin. Da kan du med en viss sannsynlighet anta at denne gruppen frukter er appelsiner, sier Esteves.

Ekspertkunnskapen blir plottet inn i et bayesiansk nettverk, en grafisk modell for sannsynlighet. Analysen blir snudd på hodet. Istedenfor at datamaskinen regner ut sannsynligheten for deg, anslår du selv en sannsynlighet som du plotter inn i det bayesianske nettverket. Nå får du en grafisk representasjon som kan hjelpe deg å forstå hvor feil kan oppstå.

Portugisisk dataingeniør
Esteves er 38 år og kommer fra Portugal. Han har en mastergrad som industriell ingeniør fra Universitetet i Minho i 2002 og en bachelorgrad som dataingeniør fra Universitetet i Aveiro i 2008.

Doktorgradsarbeidet ble finansiert av Norges forskningsråd og ble veiledet av professor Chunming Rong ved Institutt for data- og elektroteknikk.


Sist oppdatert av Håkon Hapnes Strand (12.04.2013)

Skriv ut artikkel print symbol