Opgelost: dagelijks terugkerende storing Invantive Cloud-platform

Samenvatting: er zijn sinds release 24.0 regelmatig storingen. De laatste update is dat een bugfix voor een Microsoft-component is geinstalleerd. Het geheugenprobleem lijkt hiermee opgelost.

Release 24.0 en Storingen

Het Invantive Cloud-platform heeft sinds de overgang naar release 24.0 regelmatig last van storingen, waarbij downloads extreem lang duren (minuten worden uren).

Een aantal verbeteringen zijn doorgevoerd om deze storingen te voorkomen.

De storingen treden meestal op vanaf omstreeks 04:00 CET en beinvloeden daardoor de verversing van de gegevens. Het valt niet uit te sluiten dat er specifieke downloads zijn die in combinatie met een probleem in de nieuwe release leiden tot deze storing. Het gedrag dat gemeten wordt betreft excessief gebruik van het werkgeheugen.

In dit artikel leest u hoe we dit herhalende probleem proberen op te lossen en de impact te verminderen.

De volgende maatregelen zijn reeds afgerond:

  • Beperken maximaal gebruik per abonnement conform voorwaarden (blijvend)
  • Beperken maximaal gebruik per abonnement (tijdelijk)
  • Beperken maximaal gebruik over abonnementen heen (tijdelijk)
  • Verhogen maximale snelheid zogenaamde “swapspace” (mitigatie)
  • Verhogen maximaal werkgeheugen met factor 4 (mitigatie)
  • Beperken maximaal aantal partities parallel benaderd cumulatief over alle parallelle downloads van 1 abonnement heen.
  • Zijn er specifieke jobs rond 04:00 die problemen veroorzaken?
  • Verbeteren meetpunten.
  • Beperken memory pressure release 24.0.
  • Automatisch herstarten bij detectie storing.
  • Verfijnen meting maximaal acceptabel gebruik.
  • Verfijnen metingen via SQL Execution Steps.

De volgende maatregelen zijn in uitvoering:

  • Geen.

De volgende maatregelen worden bestudeerd:

  • Scale out: verder splitsen over nog meer servers
  • Tijdelijk: verschuiven load naar voor 4:00 en liefst voor 0:00 door gebruikers te vragen hun load te verschuiven. Nachtelijke pieken zijn momenteel om klokslag 0:00 en 4:00.
  • Uitbreiden SQL Execution Steps met bytes getransporteerd en geheugenbeslag per statement.

Analyse Status 28 februari 2024

De problemen waren primair herleidbaar naar gebrek aan fysiek werkgeheugen in het serverpark. Na een verviervoudiging van de capaciteit trad dit probleem niet meer op, maar bleek dat er gedurende de nacht - en vooral in de nachtelijke piek rond 4:00 CET - extreem veel activiteit was. Samen met een andere piek rond 0:00 CET legde dit een groter beslag op de beschikbare geheugencapaciteit dan voorheen mogelijk.

Dit risico bleek al langere tijd aanwezig, en is typisch een kenmerk van de aanhoudende maand-op-maand groei van het gebruik van Invantive Cloud.

Een eerste soelaas bood het sneller opruimen van onbenodigde geheugencapaciteit.

Een reeds gestarte en deels afgeronde tweede activiteit betreft het beter delen van statische onderdelen zoals vaste metadata tussen grote aantallen gebruikers. Dit is vergelijkbaar met bijvoorbeeld Microsoft Word dat onwijzigbaar is op een Microsoft Terminal Server en waarbij het werkgeheugen met daarin de code gedeeld wordt door meerdere gelijktijdige gebruikers.

Update 25 maart 2024

Een upgrade is geplaatst van een Microsoft-component. Deze component verzorgt het vrijgeven van niet-gebruikt geheugen. Dit leek soms niet meer te gebeuren, waarna het geheugengebruik binnen enkele uren explodeerde.

Het probleem lijkt niet meer op te treden.