Bewaak je de systemen of de bewaker
Marcel Nijenhof
Marceln@pion.xs4all.nl 18 Juli 2006
http://pion.xs4all.nl/lezingen/nagios.pdf
Vragen zijn welkom maar telefoons niet!
Introductie
●
Hoe worden fouten ontdekt
●
Automatische bewaking
●
Een eenvoudig voorbeeld
●
De architectuur voor een framework
●
Een korte selectie uit de implementaties
●
Nagios als voorbeeld
●
Demo
Hoe worden fouten ontdekt
●
Gebruikers bellen
– Hij doet het niet
●
Toevallig
– B.v. tijdens werkzaamheden
●
Via check lijsten
– Systematische dagelijkse controles door mensen
●
Duidelijke alarmen uit systemen
– Het systeem heeft zelf een “ rode lamp”
Automatische bewaking (1)
●
Controle programma's maken die problemen op eenduidige wijze melden
– Omzetten van check lijsten (gedeeltelijk pro actief)
– Bekende problemen (gedeeltelijk pro actief)
– Na doen gebruiker
– Heartbeat checks
●
De resultaten centraal verwerken
– Correleren
– Filteren
– Prioriteiten toe kenen
Automatisch bewaken (2)
●
Representeren
– Het overzichtelijke tonen van de alarmen
– Mogelijk filteren voor specifieke doelgroepen
– Verschuiving van zoeken na oplossen
●
Escalatie
– Monitor tool niet altijd bewaakt door mensen
– Ook nuttig voor b.v. waakdienst
– Mogelijk via pieper/sms/mail
Een eenvoudig voorbeeld
●
Controle bezeting root disk
– df -P / | awk '$6=="/" { gsub ("%", "", $5);
if ($5 > 90) {
printf ("mail -s \"Root vol: %i%\" marceln\n", $5);
}}' | sh
●
Representatie via mail
●
Pro actief waarschuwing voor echt vol lopen
Voor/Nadelen
●
Voordeel
– Dit is de grootste winst
●
Nadelen
– Voor ieder type alarm eigen script
– Slechte controle of het echt opgelost wordt
– Niet schaalbaar na meer beheerders
Architectuur
Implementaties
●
Opensource
– Big Brother
– OpenNMS
– Nagios
●
Commercieel
– HP Openview
● Nnm
● Ovo
– IBM tivoli
– BMC patrol
Nagios
●
Werkt via plugins
– Zijn monitoren voor bepaalde events
● Vol lopen disken
● Systeem load
● Log meldingen
– Centraal vanuit de server gestart
– Via nrpe remote uit te voeren
– Remote testen van http, smtp, mysql, ...
Vragen & Demo
?
De domste vragen zijn niet gestelde vragen!
Nagios login pagina
Overzicht zonder storing
Service details zonder storing
Twee storingen
●
Extra load
– gzip </dev/zero >/dev/null (3 keer)
●
Home disk vol
– dd if=/dev/zero of=/home/g bs=1024k count=200
●
Daarna geforceerd controleren
– Normaal zo dat maximaal 5 minuten later gebeuren
Onmiddellijke herstart controle
Overzicht met storing