Apache Iceberg
Apache Iceberg is een open tabelformaat voor grote analytische datasets op object storage. Het transformeert een map met Parquet-bestanden i...
Lees meerDelta Lake is een open opslagformaat dat klassieke Parquet-bestanden uitbreidt met transacties, schema-afdwinging en time travel. Het vormt de basislaag van Microsoft Fabric, Databricks en steeds meer lakehouses elders.
Delta Lake is een open opslagformaat voor grote datasets in een lakehouse. Het bouwt bovenop Parquet-bestanden en voegt daar een transactielog aan toe. Dankzij die log krijg je eigenschappen die je anders enkel in een klassieke database terugvindt: ACID-transacties, schema-evolutie, time travel en efficiënte updates.
Delta Lake is ontstaan bij Databricks en sinds 2019 open source onder de Linux Foundation. Het is het standaardformaat van Microsoft Fabric en de opslagbasis van OneLake. Wie vandaag een lakehouse bouwt in de Microsoft-stack, schrijft bijna altijd Delta-tabellen.
Je kan Delta Lake vergelijken met een boekhoudboek bovenop je opslagkast. De Parquet-bestanden in de kast veranderen niet echt, maar een strikte log houdt bij welke bestanden bij welke versie horen. Zo kan je met enkele regels tegenhouden dat twee teams dezelfde tabel door elkaar stampen of terugkeren naar de versie van vorige week.
Een klassieke data lake met losse Parquet- of CSV-bestanden heeft drie fundamentele pijnpunten.
Geen transacties
Als een schrijfproces halverwege crasht, blijven er half geschreven bestanden achter. Lezers krijgen inconsistente data te zien. In een klassieke DB zou je dat met een rollback oplossen, in een pure lake moet je zelf sleutelen.
Geen schema-garantie
Er is niks dat verhindert dat iemand morgen een bestand met een andere kolomset toevoegt. Downstream queries breken zonder waarschuwing.
Updates en deletes zijn pijnlijk
Een rij verwijderen uit duizend Parquet-bestanden vraagt ofwel volledig herschrijven, ofwel complexe partitie-logica. Dat werkt niet voor wie GDPR-verzoeken moet honoreren of CDC-data moet verwerken.
Delta Lake lost elk van die problemen op met één elegant idee: een JSON-gebaseerde transactielog die bij elke wijziging wordt bijgewerkt. De log beschrijft welke bestanden nu geldig zijn, welke gemarkeerd zijn als verwijderd, welke schema-versie van kracht is.
Parquet als basis
De data zelf wordt nog steeds opgeslagen als Parquet-bestanden. Dat betekent dat elke tool die Parquet kan lezen (Spark, Trino, Python, SQL-engines) ook Delta kan benaderen, al is het maar in read-only-modus.
Het _delta_log-mapje
Naast de Parquet-bestanden staat een mapje _delta_log met JSON-bestanden. Elk JSON-bestand beschrijft één commit: welke bestanden toegevoegd zijn, welke weggegooid, welke schema-wijzigingen. Periodiek worden deze logs samengevat in checkpoint-bestanden om lezen te versnellen.
ACID-transacties
Gelijktijdige schrijfacties worden geordend via optimistic concurrency. Conflicten worden gedetecteerd op basis van de transactielog en foute commits worden teruggedraaid. Lezers zien altijd een consistente versie.
Time travel
Omdat elke versie van de tabel in de log zit, kan je queries draaien tegen een oudere versie: SELECT * FROM sales VERSION AS OF 42 of TIMESTAMP AS OF '2026-01-01'. Handig voor audit, reproduceerbaarheid en het ongedaan maken van fouten.
Schema-afdwinging en -evolutie
Bij elke schrijfactie wordt het schema gecontroleerd tegen het bestaande. Een mismatch wordt standaard afgewezen. Met expliciete opties kan je schema-evolutie toelaten: kolommen toevoegen, datatypes verruimen.
Delta Lake is niet alleen. Drie open tabelformaten strijden om hetzelfde doel.
Delta Lake
Ontwikkeld door Databricks, nu open source. Sterkste integratie met Spark, Fabric en Databricks zelf. Eenvoudig concept, brede tooling, uitgebreid ecosysteem.
Apache Iceberg
Ontstaan bij Netflix, breed omarmd door Snowflake, AWS en Google. Sterk in omgevingen met meerdere engines die dezelfde tabel moeten bewerken. Rijkere catalogus-semantiek.
Apache Hudi
Ontwikkeld bij Uber, sterk op streaming-use-cases en upsert-zware workloads. Kleinere community dan Delta of Iceberg.
In 2024 kondigden Databricks en Snowflake interoperabiliteit aan tussen Delta en Iceberg. Voor veel bedrijven wordt de keuze daardoor minder definitief dan ze leek.
Microsoft Fabric of Databricks als platform. Beide leunen zwaar op Delta. Iets anders gebruiken kost je integratie en performance.
BI-workloads bovenop een lake. Delta geeft je de performance en consistentie om Power BI rechtstreeks op lakehouse-tabellen te laten draaien.
GDPR- en AVG-vereisten. Met Delta's DELETE en MERGE-statements kan je gericht rijen verwijderen zonder hele partities te herschrijven.
Change Data Capture. Delta ondersteunt Change Data Feed, waarmee downstream consumers enkel de gewijzigde rijen krijgen.
Kleine bestandjes
Streaming-schrijvers produceren soms duizenden kleine Parquet-bestanden. Queries worden dan traag. Draai periodiek OPTIMIZE (Fabric, Databricks) of een compactie-job om bestanden samen te voegen.
Transactielog groeit zonder toezicht
De log wordt steeds langer en dat beïnvloedt de opstarttijd van queries. Met VACUUM en automatische checkpointing houd je hem gezond.
Partities verkeerd gekozen
Te fijne partities geven kleine-bestandjesproblemen, te grove partities zorgen voor full scans. Kies partitiesleutels op basis van hoe er gevraagd wordt, niet op basis van wat logisch lijkt in de bron.
Niet elke lezer ondersteunt Delta volledig
Pure Parquet-lezers zien enkel de bestanden, niet de log. Daardoor kunnen ze verwijderde rijen nog tonen. Gebruik altijd een Delta-aware engine voor transactionele correctheid.
Apache Iceberg is een open tabelformaat voor grote analytische datasets op object storage. Het transformeert een map met Parquet-bestanden i...
Lees meerEen berekeningsgroep past één DAX-patroon toe op elke meting in je model. Schrijf YTD, MTD en YoY% één keer in plaats van voor elke meting a...
Lees meerChange Data Capture (CDC) is een techniek die elke wijziging in een bronsysteem registreert en doorstuurt naar downstream-systemen. Zo houd ...
Lees meerEen data mart is een kleinere, gerichte deelverzameling van je data warehouse, afgestemd op één afdeling of thema. Sales, finance of HR krij...
Lees meerData mesh is een organisatiemodel voor data waarbij elk businessdomein eigenaar wordt van zijn eigen datasets en die aanbiedt als producten....
Lees meer
Copilot in Power BI levert vooral waarde als je datamodel er klaar voor is. Wat werkt in 2026, wat werkt nog niet, en waarom IT en business ...
Twijfel je tussen Power BI en Qlik? Lees de vergelijking van Data Panda en ontdek de verschillen in gebruiksgemak, prijs, hosting, integrati...