Selvorganiserende læring av trafikkategorier i Bayesianskpakkebasert IDS

2005

Detektering av uønsket trafikk i et datanettverk utføres i dag av systemer med mer eller

mindre grad av manuelt vedlikehold. Slikt vedlikehold består typisk av nedlasting av

oppdateringer som bidrar til deteksjon av de nyeste typene angrep. For å unngå dette manuelle

vedlikeholdet forskes det rundt systemer som skal være i stand til å lære seg hva som er

normal og hva som er unormal nettverkstrafikk i et datanettverk. Slike systemer er gjerne

basert på en læringsalgoritme, som basert på et sett med treningsdata, kan ta beslutninger om

hva som er normalt og ikke.

Denne masteroppgaven ser på hvordan en enkel læringsalgoritme, den Naive Bayesianske

klassifikatoren, greier oppgaven med å klassifisere normal og unormal nettverkstrafikk. For å

oppnå best mulig resultater fokuserer vi mye på hvordan vi skal velge attributtene til den

Naive Bayesianske klassifikatoren. Vi foreslår fire forskjellige måter for attributtutvelgelse.

En av metode baserer seg på å bruke feltene i IP og TCP/UDP protokollene som attributter, en

metode benytter bitene i pakken og grupperer dem sekvensielt i 8 og 8 bits mens de 2 siste ser

på relasjonene mellom bits i pakken for å gruppere attributtene. For å beregne relasjonene

mellom bits baserer vi oss på en generell algoritme for å beregne avhengigheten mellom

variabler i en datamengde.

De ulike metodene blir evaluert ved å bruke Darpa datasettet fra MIT, og resultatene viser at

vi er i stand til å detektere 99,89 % av den normale nettverkstrafikken ved å bruke attributter

med variabel lengde som er satt sammen av bits som er i relasjon til hverandre. Falske

alarmer vil da utgjøre 0,11 % av antall klassifiserte pakker noe som betyr at antallet falske

alarmer pr dag med klassifisert trafikk er overkommelig.

Av angrep greier vi å detektere 13 av 16 angrepsinstanser av typen DOS, U2R, R2L og Probe,

men dette fører med seg at det blir en økning i antall falske alarmer. For å senke antall falske

alarmer samtidig som vi opprettholder evnen til å detektere angrep ser vi på hvordan forholdet

mellom falske alarmer og feilklassifiseringer kan optimaliseres.

Masteroppgave i informasjons- og kommunikasjonsteknologi 2005 - Høgskolen i Agder, Grimstad

Høgskolen i Agder
Agder University College