Incidenten log

We doen ons best om onze services altijd operationeel te houden. Ondanks alle inzet en voorzichtigheid kan het gebeuren dat u een storing van onze services ondervindt. Aangezien u en wij afhankelijk zijn van een aantal diensten van derden, kan het probleem (en de oplossing) zelfs buiten onze macht liggen. Op deze pagina zullen we incidenten vastleggen met enige achtergrondinformatie over wat er is gebeurd en zodra de oorzaak bekend is, worden de details gedeeld.

Vertraagde e-mailbezorging (december 2023)

Er is onlangs een probleem vastgesteld in ons e-mailbezorgsysteem. De afgelopen dagen heeft een technische storing ervoor gezorgd dat sommige door onze service gegenereerde e-mails in de wachtrij zijn geplaatst in plaats van onmiddellijk te zijn verzonden. Dit probleem werd op 20 december 2023 opgelost, toen ons team met succes het normale e-mailbezorgproces herstelde, waardoor alle in de wachtrij geplaatste e-mails snel werden verzonden.

Als gevolg van dit incident heeft u mogelijk vertraging ondervonden bij het ontvangen van bepaalde e-mails. Sindsdien hebben we onze monitoringprotocollen voor het e-mailbezorgproces verbeterd om soortgelijke gebeurtenissen in de toekomst te voorkomen.

Wij verontschuldigen ons voor het eventuele ongemak dat dit mogelijk heeft veroorzaakt en waarderen uw begrip. Mocht u zich zorgen maken of verdere opheldering wensen over deze kwestie, dan kunt u contact opnemen met ons Support team.

Probleem met tijdlijnscreenshots (oktober 2023)

Om uw eindgebruikers zo goed mogelijk te representeren streeft Uptrends ernaar om up-to-date te blijven met de browserversies die worden gebruikt voor het uitvoeren van de browsergebaseerde monitoring in uw account. Hiertoe volgen we het release-ritme van Chrome. Helaas introduceerde de uitrol van Chrome 118 een bug bij het vastleggen van screenshots binnen de Chrome-ontwikkeltools. In Uptrends betekende dit dat er bij elke browsercontrole die werd uitgevoerd door controlestations met Chrome 118 tijdlijnscreenshots ontbraken. In plaats van een reeks screenshots die verschillende fasen van het laden van de pagina vastleggen, toont het controleregelresultaat één leeg screenshot.

Aangezien nieuwe Chrome-releases langzaam worden uitgerold, betekent dit dat sinds de release van Chrome 118 eerder deze maand geleidelijk steeds meer van onze controlestations door dit probleem werden getroffen. Als gevolg hiervan zullen bij steeds meer browsercontroleresultaten tijdlijnscreenshots ontbreken.

We hebben een oplossing gevonden en rollen momenteel updates uit in ons controlestationnetwerk.

Storing alerting (21-22 augustus 2023)

Tussen 21 en 22 augustus 2023 ondervond het Uptrends-platform een probleem waardoor we geen alertberichten konden versturen via een van de beschikbare integraties. Het probleem begon op 22 augustus 01:47 CEST (21 augustus 19:47 EDT) en werd verholpen op 22 augustus 02:52 CEST (21 augustus 20:52 EDT). Gedurende deze periode zijn er geen alertberichten verzonden. Alle alerts die tijdens deze periode werden gegenereerd, zijn nog steeds zichtbaar in de alerthistorie in uw account, aangezien dit alleen uitgaande berichten betrof. De monitoring werd niet beïnvloed.

Als gevolg van deze storing heeft elk platform dat binnenkomende Uptrends- alertberichten verwerkt (zoals incidentmanagement- of automatiseringstools, communicatieplatforms, enz.) mogelijk niet het alertbericht ontvangen dat een reactie had moeten triggeren, zoals het aanmaken van een ticket, incident of melding, terwijl daaropvolgende ‘Ok’-berichten wel werden ontvangen. Omgekeerd zijn er mogelijk alertberichten ontvangen waarvoor het ‘Ok’-bericht nooit is verzonden, wat betekent dat de alert of het incident nog steeds als lopend staat geregistreerd in externe platforms. Raadpleeg het overzicht alertstatus in uw account voor de realtime status van uw Uptrends-alerts.

Onderbroken Uptrends-service (6 april 2022)

Op 6 april 2022 ondervond het Uptrends-platform twee niet-gerelateerde problemen, die beide de uitvoering van controles, alerting en toegang tot het platform beïnvloedden.

Het eerste probleem begon rond 8:15 UTC en duurde tot ongeveer 9:00 UTC. Het werd veroorzaakt door een probleem in de onderliggende infrastructuur van AMS-IX, dat een groot aantal van hun klanten trof, waaronder beide datacenters van Uptrends. Voor meer informatie over dit incident verwijzen we naar dit storingsrapport gepubliceerd door AMX-IX.

Het tweede probleem begon rond 13:30 UTC en werd om 14:30 UTC opgelost. Dit probleem werd veroorzaakt door een softwarebug die eerder die dag was geïntroduceerd tijdens de release van een nieuwe versie. Hierdoor werd de performance van de Uptrends-database zwaar getroffen. Zodra het probleem duidelijk werd, hebben software engineers het probleem proberen vast te stellen en een versie uitgebracht om het te verhelpen.

Onvolledige waterval veroorzaakt door problemen met Chrome service worker (16 november 2021)

Opmerking (16/03/2022): De problemen met service workers in Chrome zijn inmiddels verholpen. Er zullen geen elementen meer ontbreken in watervalgrafieken.

Met de release van Chrome 96 installeren service workers niet langer correct, wat ertoe kan leiden dat er elementen ontbreken in de waterval van Full Page Check-controleregels. Uptrends gebruikt op zijn controlestations altijd de laatste stabiele versie van Chrome, dit kan de Uptrends-applicatie soms blootstellen aan dergelijke bugs.

Achtergrond: Service workers

Een service worker is een script dat op de achtergrond van uw browser wordt uitgevoerd, onafhankelijk van een webpagina. Hiermee kunt u functies implementeren zoals caching, pushberichten of data synchroniseren op de achtergrond. Service workers kunnen netwerkverkeer onderscheppen en programmatisch resultaten uit caches ophalen.

Wat is het probleem?

Sinds Chrome 96 heeft Chrome de manier van registreren veranderd voor service worker-gerelateerde gebeurtenissen. Dit is echter niet goed geïmplementeerd in ChromeDriver. ChromeDriver, dat ook wordt onderhouden door het Google-team, is het gereedschap dat Uptrends gebruikt om browsercontroles te automatiseren. Als gevolg hiervan blijft de service worker hangen tijdens de installatie, waardoor er elementen ontbreken in de Full Page Check-waterval. We werken samen met de relevante teams om dit probleem op te lossen.

Impact en mitigatie

De meeste websites die service workers gebruiken, laden de pagina nog steeds correct. Er zullen echter enkele of veel elementen ontbreken in de waterval, of het gedrag van de pagina kan veranderen. Het resultaat is dat informatie mogelijk niet beschikbaar is om bijvoorbeeld problemen te debuggen. Ook kan dit van invloed zijn op de totale gerapporteerde tijd. Om onjuiste totaaltijden te beperken kunt u overschakelen naar laadtijden op basis van de W3C-event. Om meer elementen te zien kunt u de browser omschakelen naar bijvoorbeeld Firefox.

Meer informatie

Bekijk het probleem op https://bugs.chromium.org/p/chromium/issues/detail?id=1270761.

Let’s Encrypt certificaatproblemen (30 april 2021)

Op vrijdag 30 april 2021, rond 19:40 UTC, begon een aanzienlijk aantal HTTPS-controleregels van meerdere Uptrends-klanten fouten te rapporteren, met de melding dat het HTTPS-certificaat niet gevalideerd kon worden. Niet alle controleregels gaven dit probleem aan; het gebeurde alleen bij sites die gebruikmaken van een TLS-certificaat uitgegeven door de certificaatautoriteit Let’s Encrypt.

Achtergrond: HTTPS-controleregels voeren certificaatcontroles uit

HTTPS-controleregels controleren de beschikbaarheid van de gespecificeerde URL. Ze controleren ook de geldigheid van het HTTPS-certificaat dat door de server wordt aangeboden als de optie Check SSL certificaat fouten op het tabblad Extra van de controleregelinstellingen actief is. Certificaten zijn alleen geldig als ze nog niet verlopen zijn. Behalve dat ze op een bepaald moment automatisch verlopen (meestal na een jaar), kunnen certificaten ook worden ingetrokken door de certificaatautoriteit. Om een solide controle uit te voeren en ervoor te zorgen dat het certificaat kan worden vertrouwd, moet de HTTPS-certificaatcontrole daarom ook verifiëren dat het certificaat niet is ingetrokken. Zonder dat geeft de controle in feite geen uitsluitsel.

Wat was het probleem?

De intrekkingscontroles gebeuren op twee manieren: via OCSP en via een CRL (certificate revocation list). Enkele uren nadat het incident begon, bleek uit rapporten van Let’s Encrypt-medewerkers dat ze een verlopen CRL hadden gebruikt, waardoor CRL-controles mislukten en fouten rapporteerden. Als gevolg daarvan rapporteerden Uptrends' controleregels een mogelijk onveilige situatie omdat de geldigheid van deze certificaten eenvoudigweg niet kon worden vastgesteld.

Dit had niet alleen invloed op Uptrends-controleregels: iedereen die .NET- of Java-code gebruikt om toegang te krijgen tot sites en API’s, zou tegen dit probleem zijn aangelopen. Het probleem is op zaterdag 1 mei 2021 om 00:04 UTC door Let’s Encrypt opgelost.

Browsers hebben dit probleem niet gemeld

Browsers gebruiken vaak hun eigen interne certificate revocation lists, die niet afhankelijk zijn van certificaatautoriteiten. Als gevolg hiervan werden de betreffende websites goed weergegeven in een browser.

Conclusie, aanbevelingen en follow-up

Er was een echt probleem. Dus waren de foutmeldingen (fouten of alerts? beide?) die werden gegenereerd door de Uptrends HTTPS-controleregels correct, aangezien we de geldigheid van certificaten en de veiligheid die ze moeten bieden niet konden garanderen.

We realiseren ons echter dat het voor u vrijwel onmogelijk was om actie te ondernemen om het probleem op te lossen, aangezien de verstoring volledig werd veroorzaakt door externe factoren. Om u in de toekomst meer opties te bieden overwegen onze engine-teams extra instellingen toe te voegen waarmee u kunt bepalen welk niveau van certificaatcontroles u wilt uitvoeren (inclusief intrekkingscontroles of niet).

Wanneer een dergelijk probleem zich voordoet en u zeker weet dat u dit type fout tijdelijk wilt negeren, kunt u certificaatcontroles omzeilen door de optie Check SSL certificaat fouten te deactiveren op het tabblad Extra van de controleregelinstellingen.

Het statusrapport van Let’s Encrypt over dit probleem is geplaatst op https://letsencrypt.status.io/pages/incident/55957a99e800baa4470002da/608c9dd384a5cf052fc6ed24.

Door deze website te gebruiken, stemt u in met het gebruik van cookies in overeenstemming met ons Cookiebeleid.