Dictionary

Lakehouse

Een lakehouse combineert de flexibiliteit van een data lake met de structuur van een data warehouse. Je bewaart ruwe en bewerkte data in open formaten en kan er zowel SQL-analyses als machine learning op uitvoeren zonder dat je twee platformen naast elkaar hoeft te beheren.

Wat is een lakehouse?

Een lakehouse is een dataplatform dat de flexibiliteit van een data lake combineert met de structuur en performance van een data warehouse. Je bewaart je data (zowel ruw als bewerkt) in open bestandsformaten op goedkope opslag, maar je bevragen gebeurt met SQL-performance en ACID-garanties zoals je van een warehouse gewend bent.

Het begrip werd populair gemaakt door Databricks rond 2020 en is intussen overgenomen door zowat alle grote spelers. Microsoft Fabric, Snowflake en Amazon Redshift bieden intussen allemaal lakehouse-achtige features aan, al verschillen de details.

Het doel is simpel: niet langer twee systemen naast elkaar (een data lake voor ML en ruwe data, een data warehouse voor BI), maar één platform dat beide werelden bedient. Dat bespaart dubbele opslag, dubbele ETL en eindeloze discussies over welk systeem de waarheid heeft.

Hoe ontstond het lakehouse-concept?

In de jaren 2010 bouwden veel organisaties een data lake naast hun bestaande data warehouse. De lake moest alles aankunnen wat het warehouse niet wou: ongestructureerde documenten, logs, IoT-data, experimenten voor machine learning. De aanname was dat je goedkoop alles kon dumpen en er later structuur op kon leggen.

In de praktijk gebeurde vaak het omgekeerde. Data lakes werden data swamps: een chaos van bestanden zonder schema, zonder governance, zonder betrouwbare bevragingsmogelijkheden. Rapportering bleef noodgedwongen in het warehouse, terwijl dure ETL-pijpen data tussen beide kopieerden.

Het lakehouse ontstond als antwoord op die tweedeling. Drie technische doorbraken maakten het mogelijk:

  • Open tabelformaten zoals Delta Lake, Apache Iceberg en Apache Hudi brachten ACID-transacties, schema-evolutie en time travel naar bestanden op object storage.

  • Columnar bestandsformaten zoals Parquet maakten snelle analytische queries op ruwe bestanden mogelijk.

  • Decoupled compute: rekenkracht kan onafhankelijk van opslag geschaald worden, waardoor je evengoed Spark, SQL of Python-notebooks op dezelfde data kan zetten.

Hoe werkt een lakehouse?

Een lakehouse is opgebouwd rond een gedeelde opslag van bestanden in open formaten. Daarbovenop draaien verschillende rekenlagen voor verschillende gebruikssituaties.

Opslaglaag
Goedkope object storage zoals Azure Data Lake Storage, Amazon S3 of Google Cloud Storage. Alle data woont hier in open formaten, zodat meerdere engines ze kunnen lezen zonder te kopiëren.

Tabellaag
Een open tabelformaat (Delta, Iceberg, Hudi) legt een schemadefinitie en transactielog bovenop de bestanden. Daardoor kan je updates, deletes en merges uitvoeren alsof het een klassieke database is, met ACID-garanties.

Computelaag
Verschillende engines voor verschillende taken: Spark voor grote batchverwerking en ML, SQL-endpoints voor BI-tools zoals Power BI, Python-notebooks voor data science. Elke engine ziet dezelfde data.

Governance-laag
Centraal metadata-beheer en toegangscontrole. In Microsoft Fabric zorgt OneLake en Microsoft Purview hiervoor. In Databricks is dat Unity Catalog.

Veel lakehouses hanteren een medaillon-architectuur met drie lagen:

  1. Bronslaag: ruwe data zoals ze binnenkomt.

  2. Zilverlaag: opgeschoonde, gevalideerde, samengevoegde data.

  3. Goudlaag: business-specifieke aggregaties, klaar voor rapportering.

Open bestandsformaten (Delta, Iceberg, Parquet)

De kracht van een lakehouse staat of valt met open formaten.

Parquet
Columnar bestandsformaat geoptimaliseerd voor analytische queries. De meeste lakehouse-tabelformaten bewaren hun data als Parquet-bestanden onder de motorkap.

Delta Lake
Ontwikkeld door Databricks, intussen open source. Voegt aan Parquet een transactielog toe, waardoor je ACID-transacties, schema-evolutie en time travel krijgt. Het standaardformaat binnen Microsoft Fabric en Databricks.

Apache Iceberg
Vergelijkbaar concept, ontwikkeld door Netflix, breed omarmd door Snowflake, AWS en Google. Sterk in omgevingen waar meerdere engines dezelfde data moeten bewerken.

Apache Hudi
Sterk voor upsert-zware use cases en streaming. Minder populair dan Delta of Iceberg, maar nog steeds aanwezig in bepaalde stacks.

In 2024 kondigden Databricks en Snowflake aan dat Delta en Iceberg onderling interoperabel worden. Voor veel bedrijven hoeft de keuze tussen Delta en Iceberg daardoor niet langer een lock-in-beslissing te zijn.

Lakehouse versus data lake versus data warehouse

Lakehouse versus data lake

Een pure data lake heeft geen tabelstructuur, geen ACID-transacties, geen garanties op dataconsistentie. Je kan SQL draaien via externe tools, maar prestaties en betrouwbaarheid zijn beperkt.

Een lakehouse voegt dat alles toe via een open tabelformaat. Je krijgt dus lake-flexibiliteit met warehouse-discipline.

Lakehouse versus data warehouse

Een klassiek data warehouse werkt met een propriëtair opslagformaat en een strak schema. Uitstekend voor BI, minder geschikt voor ongestructureerde data of heavy-duty ML.

Een lakehouse werkt met open formaten, is flexibeler voor diverse workloads, maar vraagt meer engineering-werk om de governance en performance op warehouse-niveau te krijgen. Voor zuivere BI-workloads blijft een klassiek warehouse soms de eenvoudiger keuze.

Platformen die een lakehouse aanbieden

  • Microsoft Fabric
    Lakehouse rond OneLake, met Delta als standaard tabelformaat en diepe integratie met Power BI. Sterkste kaart voor Microsoft-georiënteerde organisaties.

  • Databricks
    De uitvinder van het begrip en nog steeds referentie voor data-engineering en ML. Sterk in grote, complexe dataworkloads.

  • Snowflake
    Klassiek warehouse met een lakehouse-laag (Polaris Catalog, Iceberg-ondersteuning) erbovenop. Interessant voor teams die al Snowflake gebruiken en geleidelijk willen bewegen naar open formaten.

  • AWS
    Combinatie van S3, Glue, Athena en Redshift Spectrum levert een lakehouse-architectuur op, maar je moet meer zelf integreren dan in Fabric of Databricks.

De keuze hangt vooral af van welke data en tools je al hebt, hoeveel data-engineering capaciteit je in huis hebt en hoe centraal BI versus data science in je roadmap staat. Voor Belgische organisaties die al Microsoft 365 en Power BI gebruiken, is Fabric vaak de kortste weg naar een werkend lakehouse.

Laatst Bijgewerkt: April 23, 2026 Terug naar Woordenboek
Trefwoorden
lakehouse data lakehouse data lake data warehouse microsoft fabric onelake delta lake parquet databricks etl