Home | Comics | wishlist | Impressum | Datenschutzerklärung | 23.20.25.122


Why Exchange sucks: The ultimate experience

This is a report from a former colleague. He left the company after this incident - he warned them not to use Exchange, but of course nobody listened. Read about their suffering here:

Der *****-Krimi

Viele haben sich gefragt, was da eigentlich los ist bei ***** in Darmstadt.
Mails an die Darmstädter kommen ungelesen wieder zurück oder erreichen den
Empfänger nur mit stundenlanger Verzögerung. Immer wieder schaltet sich der
"Systemadministrator" ein und schickt eine Fehlermeldung. 

Liegt das etwa an Problemen bei der FUTZ - Umstellung in Darmstadt? (Für die
Neuen bei *****: FUTZ ist der Name des Projekts, das die Bürokommunikation
an den verschiedenen *****-Standorten vereinheitlicht). Gibt's einen
Hardwaredefekt oder einen Bug in der Software?

Tatsächlich hat eine ganze Reihe von sich gegenseitig beeinflussenden, aber
auch völlig unabhängigen Ereignissen (Murphy's Law) für die mehrfachen
Abstürze des Mail-Servers gesorgt. 

Hier die Details, protokolliert von Joe Sufferer: 

Dienstag 23. Januar (vormittags):

Der neue Darmstädter-Exchange Server fällt aus. Problem: Die Festplatten
sind vollgelaufen. Der Server konnte nicht mehr korrekt herunterfahren und
die Datenbanken, die alle Darmstädter E-Mails enthalten, wurden beschädigt.
Warum sind die Festplatten vollgelaufen?

1. Das System ist auf ein lauffähiges Backup ausgelegt. Ein tägliches Backup
archiviert sogenannte Log-Files und löscht diese danach. Da wir zur Zeit
kein Backup haben, wurden diese Log-Files nie gelöscht.

2. Die internal IT hat den Zustand zu spät bemerkt. Die Logfiles wuchsen
durch die Umstellung einiger Mitarbeiter mit großen Postfächern sehr schnell
an. (Umstellung von Altsystemen auf FUTZ).

Nach einem Backup der Datenbanken auf einen anderen Rechner haben wir mit
einem Reparaturlauf angefangen. Aufgrund der Datenmenge von 15 GB (nur
E-Mail in Darmstadt!!!) dauerte dieser Reparaturlauf bis zum nächsten
morgen. Ende des Tages: 22 Uhr.

Gleichzeitig wurde ein Support-Call bei Microsoft eröffnet, damit wir von
Anfang an optimale Unterstützung bei dieser Katastrophe haben.

Mittwoch 24. Januar:

Unser Arbeitstag beginnt um 5 Uhr morgens. Wir fahren den Exchange Server
hoch. Das meiste funktioniert normal und wir haben keinen nennenswerten
Datenverlust. Einziges Problem: Der Rechner ist extrem langsam weil er zu
100% ausgelastet ist.

Wir fassen den Entschluß, die Daten aller Mitarbeiter aus der alten evtl.
noch defekten Datenbank in eine andere Datenbank zu verschieben.

Gegen 9 Uhr morgens meldet der Exchange Server erneut einen Fehler. Wieder
sind die Datenbanken defekt und müssen repariert werden. Der Grund hierfür
ist uns zunächst unklar. Microsoft analysiert später unsere Protokolle und
vermutet einen Hardwaredefekt an dem Exchange Server. Laut Microsoft hängt
dieser zweite Crash so merkwürdig es auch klingt nicht mit dem ersten Crash
zusammen. Das Pech hat uns einfach an zwei aufeinanderfolgenden Tagen voll
erwischt.

Um die Leute wieder in einen arbeitsfähigen Zustand zu versetzen, legen wir
alle Darmstädter Kollegen erneut an und lagern ihre Daten auf den
Frankfurter Server aus. Dies geschieht gegen 15 Uhr. Seit 15 Uhr sind also
alle Darmstädter Kollegen wieder unter den normalen E-Mail Adressen
erreichbar. Allerdings können die Kollegen nur über https://pim.*****.de
arbeiten und die ,,alten" E-Mails stehen in dieser temporären Umgebung nicht
zur Verfügung.

Microsoft empfiehlt, alle Daten erneut zu sichern und den Reparaturlauf auf
den ursprünglichen Daten vom Vortag zu machen. Bis zum Abend kämpfen wir mit
dem Backup dieser Datenmengen.

Donnerstag 25. Januar:

Erneut beginnt unser Arbeitstag um 5 Uhr. Wir starten den Reparaturlauf.
Dieser ist gegen 12 Uhr beendet. Danach starten wir ein weiteres Backup der
entsprechenden Daten!

Auf Empfehlung von Microsoft und HP installieren wir einen zweiten Exchange
Server damit unsere Bemühungen nicht erneut durch einen eventuell defekten
Server zunichte gemacht werden. Gegen 17 Uhr ist der neue Server
einsatzbereit.

Mike Fixer arbeitet die gesamte Nacht durch und verschiebt nach und nach die
Daten eines jeden Mitarbeiters von dem wiederhergestellten Rechner auf den
neuen Rechner.

Freitag 26. Januar:

Wir konnten ausschlafen... D.h. wir waren erst gegen 6:30 Uhr im Büro. Mike
ist gerade mit dem Verschieben der letzten Kollegen fertig.

Alle Kollegen können wieder normal mit dem System arbeiten. Wir stellen
jedoch fest, daß auch dieser Server 100% CPU-Auslastung hat und
dementsprechend träge antwortet. Der ,,Fehler" scheint also vom alten zum
neuen System mitgewandert zu sein. Dieser Zustand wird mit Microsoft
besprochen. 

Nach Feierabend stehe ich bis ca. 3 Uhr nachts mit Microsoft in Verbindung
und sammele Informationen, Logfiles, Dumps usw. Um 3 Uhr nachts scheint der
Server noch immer stabil und das Problem wird auf Montag morgen vertagt.

Sonntag 28. Januar:

Gegen 4 Uhr nachts erweist sich unsere Einschätzung der Lage als zu
optimistisch: Ohne Vorwarnung schreibt das System ca. 20 GB an nutzlosen
Daten auf die Festplatte. Gegen 15 Uhr bemerken wir diesen Zustand durch
Anrufe bei unserer 24 Stunden Hotline.

Ich fahre am Abend in die Firma und installiere eine weitere Festplatte, so
daß der Zustand schnell behoben werden kann. Dann starte ich eine Prozedur,
um die nutzlosen Daten wieder zu entfernen und den Server wieder lauffähig
zu machen. Das dauert die ganze Nacht.

Montag 29. Januar:

Um 7 Uhr morgens beginnt der Tag...  Das System wird zunächst wieder flott
gemacht. Zwischen 8 Uhr und 18 Uhr werden eventuelle Fehlerquellen mit
Microsoft durchgesprochen. Dabei wird immer versucht, den Produktivbetrieb
nicht zu stören. Leider ist uns das nicht immer gelungen.

Um 18 Uhr: Der Durchbruch. Durch verschiedene Änderungen am System erhalten
wir einen wirklich stabilen Zustand. Das Symptom ist verschwunden, aber der
Grund wohl noch vorhanden. Und den kennen wir noch nicht... Danach: Fahrt
nach Königswinter.

23-3 Uhr: Zusammen mit Microsoft wird versucht, einen Grund für die Probleme
zu finden. Microsoft kommt um 3 Uhr zu der Erkenntnis, daß der Fehler nur
durch ein sogenanntes "Live-Debugging" auf der defekten Maschine gefunden
werden kann. Dieses wird auf den nächsten Abend vertagt, da wir erst die
entsprechenden Voraussetzungen schaffen müssen.

Dienstag 30. Januar:

Tagsüber läuft das System stabil. 

23 Uhr: Hoch lebe Amerika... Die nächste Sitzung mit Microsoft beginnt. Die
drei Musketiere Jared, Andy und Joe Sufferer verbringen sieben sehr
harte Stunden mit dem Microsoft Support in Amerika. Leider gelingt aus
verschiedenen technischen Gründen das eigentliche "Debugging" nicht. Aber es
können alle notwendigen Voraussetzungen geschaffen werden.

Mittwoch 31. Januar:

Das System läuft stabil. Wir treffen weitere Vorbereitungen für das Debugging. 

Donnerstag 1. Februar:

Tagsüber wird versucht, das Problem am Rechner pim.*****.de nachzustellen.
Leider ohne Erfolg. 

20:30 Uhr. Das Debugging am eigentlichen Problemrechner beginnt. Innerhalb
der nächsten drei Stunden kann Microsoft den Fehler im System eingrenzen. Es
scheint sich wirklich um einen Fehler im Programm zu handeln. Microsoft
bestätigt, daß es KEIN Konfigurationsfehler auf ***** Seite ist.


Aktueller Status: 

Microsoft versucht, daß gesamte Problem im eigenen Labor nachzustellen. Wenn
dies gelingt, wird der gesamte Fall an die Exchange-Entwickler in Redmond
übergeben. Falls dies nicht gelingt wird Microsoft den Fall weiter direkt
auf unseren Systemen untersuchen. Sobald der Bug gefunden wird, erhalten wir
einen HotFix für das Problem.


Zusammenfassung:

- Der erste Crash entstand durch die oben genannten zwei Gründe. 

- Der zweite Crash kam durch einen Hardwareausfall zu Stande. 

- Die Situation seit dem 26. Januar war problematisch, weil Microsoft einen
  bis dahin nicht entdeckten Fehler in ihrem System hat. Leider sind wir
  durch unglückliche Verkettungen genau in diesen Fehler hineingerannt. So
  wie es aussieht sind wir damit die ersten weltweit. Hat doch auch was...
  :-(


Was tun wir, damit uns das in Zukunft nicht erneut geschieht? 

BACKUP, BACKUP, BACKUP. Die ganzen Vorfälle haben die Entscheidungsfindung
bzgl. des Backup-Budgets beschleunigt. Wir werden so schnell wie möglich
deutschlandweit ein Backup-System für die gesamte FUTZ-Umgebung
installieren. Wenn wir im obigen Szenario ein ordentliches Backup des
betroffenen Systems gehabt hätten, wäre der Ausfall auf maximal 1/2 Tag
beschränkt gewesen.

© by Ralf Hildebrandt
This document contains links to external information sources that I do neither monitor nor control. I explicitly disclaim any liabilities in respect to external references.
You are getting this document without any guarantees. Any methods shown above are meant as demonstration and may be wrong in some place. You may damage your system if you try to follow my hints and instructions. You do this at your own risk!

This file was last modified 07. May 2007 by root