Ausfall der TR-Freun.de Webseite
Moderator: TR-Freunde-Team
- Berthold
- TReam Team
- Beiträge: 1422
- Registriert: 12.06.2013, 23:00
- Wohnort: Bergisch Gladbach
- Hat sich bedankt: 20 Mal
- Danksagung erhalten: 448 Mal
Ausfall der TR-Freun.de Webseite
Seit gestern kam es mehrfach zu Ausfällen unserer Webseite. Ursächlich hierfür sind noch nicht restlos geklärte Probleme bei unserem Provider. Zur Info hier die Mail des Providers.
------------------------ Mail von Artfiles --------------------
Artfiles New Media GmbH
Netzwerkausfall am 21.10.2019
Sehr geehrte Damen und Herren,
mit dieser Mail möchten wir Sie über die Hintergründe des gestrigen Netzwerkausfalls informieren.
Gegen ca. 10:35 Uhr kam es offenbar durch eine Verkettung zweier unabhängiger Fehlkonfigurationen, einmal auf Seiten eines Datacenter-Kunden und einmal auf Artfiles' Seite, zum Ausfall eines Verteilerswitches in Colo2 im Rechenzentrum W408.
Aus noch ungeklärter Ursache führte dies auf der Aggregationsebene zu sporadischen Ausfällen der redundanten Inter-Switch Links (LACP). Im Ergebnis war Colo2 effektiv offline.
Da auf der Aggregationsebene auch Storagetraffic verarbeitet wird, kam es nachgelagert zu Problemen mit einigen virtuellen Servern in der Artfiles Cloud.
Gegen 11:45 Uhr konnte das Problem isoliert werden. Im Nachgang mussten die betroffenen Webserver neugestartet werden, um die Integrität der Dateisysteme sicherzustellen. Dies hat leider in einigen Fällen bis ca. 16 Uhr gedauert.
Wir versuchen derzeit noch durch Reproduktion des auslösenden Fehlers auf einem Testsystem herauszufinden, warum ein an sich isoliertes Problem auf einem Verteilerswitch diese gravierenden Auswirkungen haben konnte.
Außerdem arbeiten wir an einer Lösung um im Falle ähnlicher Probleme betroffene Serversysteme schneller wieder online zu bringen.
Wir bitten um Entschuldigung für die entstandenen Unannehmlichkeiten. Bei Rückfragen stehen wir Ihnen selbstverständlich gerne zur Verfügung.
Das Artfiles Team
---------------------------------------------------------------
Durch die geschilderten Probleme kam es in unserer Datenbank zu einem Fehler den ich nun reparieren konnte. Ich hoffe damit ist die Webseite wieder wie gewohnt erreichbar.
Gruß Berthold
------------------------ Mail von Artfiles --------------------
Artfiles New Media GmbH
Netzwerkausfall am 21.10.2019
Sehr geehrte Damen und Herren,
mit dieser Mail möchten wir Sie über die Hintergründe des gestrigen Netzwerkausfalls informieren.
Gegen ca. 10:35 Uhr kam es offenbar durch eine Verkettung zweier unabhängiger Fehlkonfigurationen, einmal auf Seiten eines Datacenter-Kunden und einmal auf Artfiles' Seite, zum Ausfall eines Verteilerswitches in Colo2 im Rechenzentrum W408.
Aus noch ungeklärter Ursache führte dies auf der Aggregationsebene zu sporadischen Ausfällen der redundanten Inter-Switch Links (LACP). Im Ergebnis war Colo2 effektiv offline.
Da auf der Aggregationsebene auch Storagetraffic verarbeitet wird, kam es nachgelagert zu Problemen mit einigen virtuellen Servern in der Artfiles Cloud.
Gegen 11:45 Uhr konnte das Problem isoliert werden. Im Nachgang mussten die betroffenen Webserver neugestartet werden, um die Integrität der Dateisysteme sicherzustellen. Dies hat leider in einigen Fällen bis ca. 16 Uhr gedauert.
Wir versuchen derzeit noch durch Reproduktion des auslösenden Fehlers auf einem Testsystem herauszufinden, warum ein an sich isoliertes Problem auf einem Verteilerswitch diese gravierenden Auswirkungen haben konnte.
Außerdem arbeiten wir an einer Lösung um im Falle ähnlicher Probleme betroffene Serversysteme schneller wieder online zu bringen.
Wir bitten um Entschuldigung für die entstandenen Unannehmlichkeiten. Bei Rückfragen stehen wir Ihnen selbstverständlich gerne zur Verfügung.
Das Artfiles Team
---------------------------------------------------------------
Durch die geschilderten Probleme kam es in unserer Datenbank zu einem Fehler den ich nun reparieren konnte. Ich hoffe damit ist die Webseite wieder wie gewohnt erreichbar.
Gruß Berthold
- Triumphator
- Spezialist
- Beiträge: 4223
- Registriert: 19.02.2005, 00:00
- Wohnort: Bretten
- Hat sich bedankt: 648 Mal
- Danksagung erhalten: 442 Mal
- Kontaktdaten:
- seidelswalter
- Profi
- Beiträge: 1253
- Registriert: 19.01.2008, 00:00
- Wohnort: Schwarzenbruck(bei Nbg.)
- Hat sich bedankt: 240 Mal
- Danksagung erhalten: 81 Mal
- Kontaktdaten:
Re: Ausfall der TR-Freun.de Webseite
Berthold is the best!
gute Fahrt
Walter Seidel
TR6 PI Bj73 RHD pimento red Hardtop, Sitzheizung, 6 Zoll Speichenräder 195/65 Semperit Doppelrohrauspuff el. Zündung el. Benzinpumpe samt Vorpumpe - ein Leben ohne Triumph ist möglich, aber sinnlos - [Lightbox]am 4. Januar 2024 ist mein 51ster Geburtstag [/Lightbox]
:wave:
Walter Seidel
TR6 PI Bj73 RHD pimento red Hardtop, Sitzheizung, 6 Zoll Speichenräder 195/65 Semperit Doppelrohrauspuff el. Zündung el. Benzinpumpe samt Vorpumpe - ein Leben ohne Triumph ist möglich, aber sinnlos - [Lightbox]am 4. Januar 2024 ist mein 51ster Geburtstag [/Lightbox]
:wave:
- Sinan
- ist sehr oft hier
- Beiträge: 459
- Registriert: 28.10.2010, 23:00
- Wohnort: Weinheim
- Hat sich bedankt: 104 Mal
- Danksagung erhalten: 38 Mal
Re: Ausfall der TR-Freun.de Webseite
Geiler Brief, so richtig sachlich, um dem gemeinen Volk zu zeigen, das gar nichts von Internet weiß.
Gegen ca. 10:35 Uhr kam es offenbar durch eine Verkettung zweier unabhängiger Fehlkonfigurationen, einmal auf Seiten eines Datacenter-Kunden und einmal auf Artfiles' Seite, zum Ausfall eines Verteilerswitches in Colo2 im Rechenzentrum W408.
Aus noch ungeklärter Ursache führte dies auf der Aggregationsebene zu sporadischen Ausfällen der redundanten Inter-Switch Links (LACP). Im Ergebnis war Colo2 effektiv offline.
Da auf der Aggregationsebene auch Storagetraffic verarbeitet wird, kam es nachgelagert zu Problemen mit einigen virtuellen Servern
Jetzt aber alles wieder gut, was gibt es da nicht zu verstehen????
Dank an Berthold
Gegen ca. 10:35 Uhr kam es offenbar durch eine Verkettung zweier unabhängiger Fehlkonfigurationen, einmal auf Seiten eines Datacenter-Kunden und einmal auf Artfiles' Seite, zum Ausfall eines Verteilerswitches in Colo2 im Rechenzentrum W408.
Aus noch ungeklärter Ursache führte dies auf der Aggregationsebene zu sporadischen Ausfällen der redundanten Inter-Switch Links (LACP). Im Ergebnis war Colo2 effektiv offline.
Da auf der Aggregationsebene auch Storagetraffic verarbeitet wird, kam es nachgelagert zu Problemen mit einigen virtuellen Servern
Jetzt aber alles wieder gut, was gibt es da nicht zu verstehen????
Dank an Berthold
- Mathias013
- schon länger dabei
- Beiträge: 39
- Registriert: 19.10.2014, 23:00
- Wohnort: Bonne / F
- Hat sich bedankt: 1 Mal
- Danksagung erhalten: 11 Mal
Re: Ausfall der TR-Freun.de Webseite
Hallo zusammen,
Durch den Ausfall des Verteilerswitches ist es im Netzwerk durch die Redundanzsysteme zu einem Loop gekommen und das Spanning-tree Protokoll hat dann die ports vom Etherchannel auf err-disabled geschaltet um den Loop zu unterbrechen.
Da ist das spanning-tree falsch oder gar nicht konfiguriert worden, und der Datenverkehr 'flappt' je nach Vlan auf dem redundanten Switch von port zu port da das SP neue Wege 'sucht'. Mit dem Storagetraffic meinen die vSAN und somit sind denen die virtuellen Server eingefroren oder abgestürzt da die Server plötzlich ihre Festplatten nicht mehr 'gesehen' haben. Also erst Netzwerk stabilisieren (mit Hilfe eines Management Servers der nicht virtuell ist) und dann die abgestürzten Server neu starten.
Aber diese Details versteht kein Kunde und somit wird das Ganze nett umschrieben.
Schönes Wochenende,
Mathias (013)
Durch den Ausfall des Verteilerswitches ist es im Netzwerk durch die Redundanzsysteme zu einem Loop gekommen und das Spanning-tree Protokoll hat dann die ports vom Etherchannel auf err-disabled geschaltet um den Loop zu unterbrechen.
Da ist das spanning-tree falsch oder gar nicht konfiguriert worden, und der Datenverkehr 'flappt' je nach Vlan auf dem redundanten Switch von port zu port da das SP neue Wege 'sucht'. Mit dem Storagetraffic meinen die vSAN und somit sind denen die virtuellen Server eingefroren oder abgestürzt da die Server plötzlich ihre Festplatten nicht mehr 'gesehen' haben. Also erst Netzwerk stabilisieren (mit Hilfe eines Management Servers der nicht virtuell ist) und dann die abgestürzten Server neu starten.
Aber diese Details versteht kein Kunde und somit wird das Ganze nett umschrieben.
Schönes Wochenende,
Mathias (013)