Pipeline-runs als geheugen: uitvoeringsmetadata in de praktijk

Hoe Latero Runtime elke pipeline-uitvoering vastlegt als een herleidbaar record, en hoe Latero Control die registraties leesbaar maakt.

Een collega vraagt of de pipeline gisteren echt de meest recente levering van bronsysteem A heeft meegenomen. Iemand anders wil weten of er fouten zijn opgetreden bij de verwerking van bronsysteem B. Een derde vraagt hoeveel rijen er zijn ingeladen. Drie vragen, drie handmatige speurtochten. Tenzij er een gestructureerd geheugen is.

Dat geheugen is de uitvoeringsregistratie van Latero Runtime. Voor elke pipeline-stap legt de runtime één record vast: wat er is gedraaid, hoe het is afgelopen, wanneer, en in welke context.

Wat staat er in een uitvoeringsrecord?

Elke keer dat een pipeline-stap via Latero Runtime wordt uitgevoerd, legt de runtime een record vast. De kernvelden zijn:

VeldBetekenis
run_idUnieke identifier van deze uitvoering
dataset_idIdentifier van de dataset
stepDe pipeline-stap (bijv. landing_to_raw, raw_to_bronze)
run_statusUitkomst: SUCCESS, WARNING of FAILED
duration_msUitvoeringstijd in milliseconden
parent_run_idKoppeling aan een bovenliggende run in multi-step ketens
source_systemHerkomstidentifier van de databron
environmentOmgevingstag: dev, acc, prd
timestamp_utcTijdstip van uitvoering in UTC
output_refsOutputaantallen en verwijzingen
file_eventsPer bestand: status, bronpad, doelpad, checksum

Elke run is daarmee volledig reconstrueerbaar: het is duidelijk welk bestand is gebruikt, welke versie is verwerkt en wat de uitkomst was.

Een concreet voorbeeld

Een pipeline verwerkt een nieuwe levering van bronsysteem A via de stap landing_to_raw. In API-modus pusht de Latero-runtime na afloop dit event naar het ingest-eindpunt van Latero Control:

{
  "installation_id": "inst_prod_01",
  "dataset_id": "bronsysteem_a",
  "run_id": "bronsysteem_a__landing_to_raw__20260304T140217Z",
  "step": "landing_to_raw",
  "status": "SUCCESS",
  "environment": "prd",
  "execution_seconds": 42.3,
  "timestamp_utc": "2026-03-04T14:02:17Z",
  "output_refs": {
    "FilesIngested": "1",
    "FilesFound": "1"
  },
  "file_events": [
    {
      "status": "COPIED",
      "source_ref": "/landing/bronsysteem_a/bronsysteem_a_2026.csv",
      "target_ref": "/raw/bronsysteem_a/2026/bronsysteem_a_2026.csv",
      "landing_sha256": "a3f2c1d9e4b7...",
      "raw_sha256": "a3f2c1d9e4b7..."
    }
  ]
}

Dit record is het ankerpunt voor alles wat erna komt. De kwaliteitschecks uit diezelfde run zijn gekoppeld aan deze run_id. De lineage-records verwijzen naar dezelfde run. Als een auditor vraagt op welke bron een kwartaalsrapport is gebaseerd, leidt één zoekopdracht in Latero Control naar dit record en vandaaruit naar de volledige evidenceketen.

Inzicht via Latero Control

In het Latero Control-dashboard is direct zichtbaar welke runs er de afgelopen periode zijn gedraaid, hoe ze zijn afgelopen en hoe lang ze duurden. In de Databricks-modus zijn de uitvoeringsrecords ook direct bevraagbaar via SQL op de onderliggende Delta-tabellen. De dashboards zijn in beide integratiemodi identiek.

Reproduceerbaarheid als architectuurprincipe

De uitvoeringsregistratie is niet alleen nuttig achteraf. Het is een architectuurprincipe: elke pipeline-uitvoering is reproduceerbaar omdat Latero Runtime de kennis erover vastlegt voordat die kennis verloren kan gaan.

Reproduceerbaar betekent in de praktijk dat voor elke run kan worden aangetoond welk bronbestand is gebruikt, welke stap is uitgevoerd, wat het resultaat was en op welk moment dit heeft plaatsgevonden.

Dit is nodig om later uit te kunnen leggen welke bronlevering onder een publicatie lag, wanneer de verwerking heeft plaatsgevonden en hoe die is afgelopen. Zonder die registratie blijft elke reconstructie afhankelijk van geheugen, notities en geluk.

Geen stille runs

Een subtiel maar belangrijk detail: Latero Runtime legt ook vast wanneer er niets te verwerken was. De run heeft plaatsgevonden, er waren geen nieuwe bestanden of de verwerkingsconditie was niet voldaan, maar het moment zelf is geregistreerd. Een ontbrekend record is ononderscheidbaar van een pipeline die nooit heeft gedraaid. Met een expliciete registratie is ook de afwezigheid van verwerking aantoonbaar, niet alleen de aanwezigheid ervan. Dat verschil telt wanneer een toezichthouder vraagt of een rapportage compleet is.

Heeft dit artikel vragen opgeroepen over uw eigen architectuurvraagstuk?

Neem contact op