Dictionary

Lakehouse

Een lakehouse combineert de flexibiliteit van een data lake met de structuur van een data warehouse. Je bewaart ruwe en bewerkte data in open formaten en kan er zowel SQL-analyses als machine learning op uitvoeren zonder dat je twee platformen naast elkaar hoeft te beheren.

Wat is een lakehouse?

Een lakehouse is een dataplatform dat de flexibiliteit van een data lake combineert met de structuur en performance van een data warehouse. Je bewaart je data (zowel ruw als bewerkt) in open bestandsformaten op goedkope opslag, maar je bevragen gebeurt met SQL-performance en ACID-garanties zoals je van een warehouse gewend bent.

Het begrip werd populair gemaakt door Databricks rond 2020 en is intussen overgenomen door zowat alle grote spelers. Microsoft Fabric, Snowflake en Amazon Redshift bieden intussen allemaal lakehouse-achtige features aan, al verschillen de details.

Het doel is simpel: niet langer twee systemen naast elkaar (een data lake voor ML en ruwe data, een data warehouse voor BI), maar één platform dat beide werelden bedient. Dat bespaart dubbele opslag, dubbele ETL en eindeloze discussies over welk systeem de waarheid heeft.

Hoe ontstond het lakehouse-concept?

In de jaren 2010 bouwden veel organisaties een data lake naast hun bestaande data warehouse. De lake moest alles aankunnen wat het warehouse niet wou: ongestructureerde documenten, logs, IoT-data, experimenten voor machine learning. De aanname was dat je goedkoop alles kon dumpen en er later structuur op kon leggen.

In de praktijk gebeurde vaak het omgekeerde. Data lakes werden data swamps: een chaos van bestanden zonder schema, zonder governance, zonder betrouwbare bevragingsmogelijkheden. Rapportering bleef noodgedwongen in het warehouse, terwijl dure ETL-pijpen data tussen beide kopieerden.

Het lakehouse ontstond als antwoord op die tweedeling. Drie technische doorbraken maakten het mogelijk:

Open tabelformaten zoals Delta Lake, Apache Iceberg en Apache Hudi brachten ACID-transacties, schema-evolutie en time travel naar bestanden op object storage.
Columnar bestandsformaten zoals Parquet maakten snelle analytische queries op ruwe bestanden mogelijk.
Decoupled compute: rekenkracht kan onafhankelijk van opslag geschaald worden, waardoor je evengoed Spark, SQL of Python-notebooks op dezelfde data kan zetten.

Hoe werkt een lakehouse?

Een lakehouse is opgebouwd rond een gedeelde opslag van bestanden in open formaten. Daarbovenop draaien verschillende rekenlagen voor verschillende gebruikssituaties.

Opslaglaag
Goedkope object storage zoals Azure Data Lake Storage, Amazon S3 of Google Cloud Storage. Alle data woont hier in open formaten, zodat meerdere engines ze kunnen lezen zonder te kopiëren.

Tabellaag
Een open tabelformaat (Delta, Iceberg, Hudi) legt een schemadefinitie en transactielog bovenop de bestanden. Daardoor kan je updates, deletes en merges uitvoeren alsof het een klassieke database is, met ACID-garanties.

Computelaag
Verschillende engines voor verschillende taken: Spark voor grote batchverwerking en ML, SQL-endpoints voor BI-tools zoals Power BI, Python-notebooks voor data science. Elke engine ziet dezelfde data.

Governance-laag
Centraal metadata-beheer en toegangscontrole. In Microsoft Fabric zorgt OneLake en Microsoft Purview hiervoor. In Databricks is dat Unity Catalog.

Veel lakehouses hanteren een medaillon-architectuur met drie lagen:

Bronslaag: ruwe data zoals ze binnenkomt.
Zilverlaag: opgeschoonde, gevalideerde, samengevoegde data.
Goudlaag: business-specifieke aggregaties, klaar voor rapportering.

Open bestandsformaten (Delta, Iceberg, Parquet)

De kracht van een lakehouse staat of valt met open formaten.

Parquet
Columnar bestandsformaat geoptimaliseerd voor analytische queries. De meeste lakehouse-tabelformaten bewaren hun data als Parquet-bestanden onder de motorkap.

Delta Lake
Ontwikkeld door Databricks, intussen open source. Voegt aan Parquet een transactielog toe, waardoor je ACID-transacties, schema-evolutie en time travel krijgt. Het standaardformaat binnen Microsoft Fabric en Databricks.

Apache Iceberg
Vergelijkbaar concept, ontwikkeld door Netflix, breed omarmd door Snowflake, AWS en Google. Sterk in omgevingen waar meerdere engines dezelfde data moeten bewerken.

Apache Hudi
Sterk voor upsert-zware use cases en streaming. Minder populair dan Delta of Iceberg, maar nog steeds aanwezig in bepaalde stacks.

In 2024 kondigden Databricks en Snowflake aan dat Delta en Iceberg onderling interoperabel worden. Voor veel bedrijven hoeft de keuze tussen Delta en Iceberg daardoor niet langer een lock-in-beslissing te zijn.

Lakehouse versus data lake versus data warehouse

Lakehouse versus data lake

Een pure data lake heeft geen tabelstructuur, geen ACID-transacties, geen garanties op dataconsistentie. Je kan SQL draaien via externe tools, maar prestaties en betrouwbaarheid zijn beperkt.

Een lakehouse voegt dat alles toe via een open tabelformaat. Je krijgt dus lake-flexibiliteit met warehouse-discipline.

Lakehouse versus data warehouse

Een klassiek data warehouse werkt met een propriëtair opslagformaat en een strak schema. Uitstekend voor BI, minder geschikt voor ongestructureerde data of heavy-duty ML.

Een lakehouse werkt met open formaten, is flexibeler voor diverse workloads, maar vraagt meer engineering-werk om de governance en performance op warehouse-niveau te krijgen. Voor zuivere BI-workloads blijft een klassiek warehouse soms de eenvoudiger keuze.

Platformen die een lakehouse aanbieden

Microsoft Fabric
Lakehouse rond OneLake, met Delta als standaard tabelformaat en diepe integratie met Power BI. Sterkste kaart voor Microsoft-georiënteerde organisaties.
Databricks
De uitvinder van het begrip en nog steeds referentie voor data-engineering en ML. Sterk in grote, complexe dataworkloads.
Snowflake
Klassiek warehouse met een lakehouse-laag (Polaris Catalog, Iceberg-ondersteuning) erbovenop. Interessant voor teams die al Snowflake gebruiken en geleidelijk willen bewegen naar open formaten.
AWS
Combinatie van S3, Glue, Athena en Redshift Spectrum levert een lakehouse-architectuur op, maar je moet meer zelf integreren dan in Fabric of Databricks.

De keuze hangt vooral af van welke data en tools je al hebt, hoeveel data-engineering capaciteit je in huis hebt en hoe centraal BI versus data science in je roadmap staat. Voor Belgische organisaties die al Microsoft 365 en Power BI gebruiken, is Fabric vaak de kortste weg naar een werkend lakehouse.

Laatst Bijgewerkt: April 23, 2026 Terug naar Woordenboek

Trefwoorden

lakehouse data lakehouse data lake data warehouse microsoft fabric onelake delta lake parquet databricks etl

/ Related

Gerelateerde Termen

Term

Apache Iceberg

Apache Iceberg is een open tabelformaat voor grote analytische datasets op object storage. Het transformeert een map met Parquet-bestanden i...

Lees meer

Term

Berekeningsgroep (Calculation group)

Een berekeningsgroep past één DAX-patroon toe op elke meting in je model. Schrijf YTD, MTD en YoY% één keer in plaats van voor elke meting a...

Lees meer

Term

Change Data Capture (CDC)

Change Data Capture (CDC) is een techniek die elke wijziging in een bronsysteem registreert en doorstuurt naar downstream-systemen. Zo houd ...

Lees meer

Term

Data lineage

Data lineage toont de volledige levensloop van data. Van bron tot rapport, met betekenis en context. Essentieel voor vertrouwen in cijfers.

Lees meer

Term

Data mart

Een data mart is een kleinere, gerichte deelverzameling van je data warehouse, afgestemd op één afdeling of thema. Sales, finance of HR krij...

Lees meer

/ Further reading

From the blog.

Power BI dashboard met een paarse KPI-tegel en trendlijn, naast een Copilot chatpaneel met twee vinkjes en één kruis

Article · Apr 18, 2026

Copilot in Power BI: wat werkt in 2026 en wat nog niet

Copilot in Power BI levert vooral waarde als je datamodel er klaar voor is. Wat werkt in 2026, wat werkt nog niet, en waarom IT en business ...

Article · Oct 22, 2025

Power BI vs Qlik

Twijfel je tussen Power BI en Qlik? Lees de vergelijking van Data Panda en ontdek de verschillen in gebruiksgemak, prijs, hosting, integrati...