DuckDB-connector

Zet bedrijfsdata in DuckDB en draai analytische SQL op een laptop, een server of een Lambda.

Data Panda haalt data uit je CRM, ERP, webshop, product- en financesystemen en schrijft ze weg in DuckDB-bestanden of in MotherDuck. Eén columnar engine, ingebed in het proces dat ze nodig heeft, beantwoordt queries op Parquet, CSV en JSON zonder dat er een aparte databaseserver tussen zit.

Data Panda Reporting Automation AI Apps
DuckDB logo
Over DuckDB

De in-process columnar database voor analytische SQL waar je code ook draait.

DuckDB is in 2018 ontstaan in de Database Architectures-groep van het CWI in Amsterdam, hetzelfde lab waar MonetDB vandaan komt, met Mark Raasveldt en Hannes Mühleisen als oorspronkelijke auteurs. De eerste publieke release dateert van 2019 en versie 1.0 (codenaam Snow Duck) is uitgebracht op 3 juni 2024, met een stabiel on-disk formaat dat latere versies blijven lezen. De code staat onder MIT-licentie, wordt beheerd door de DuckDB Foundation en gebouwd door DuckDB Labs in Amsterdam; MotherDuck levert de managed cloudversie en is een van de gold sponsors van het project.

De engine is in-process en columnar. Er draait geen server, je opent geen poort en je beheert geen replicatie; DuckDB is een library die in Python, R, Node, Java, Rust, de CLI, je data-app of een serverless functie leeft. Binnen dat proces zet ze tabellen kolom per kolom op disk, draait ze een vectorized executor op batches rijen en leest ze Parquet, CSV en JSON rechtstreeks van lokale disk, een HTTPS-URL of een S3-bucket, met predicate- en projection-pushdown erbij. Dezelfde binary scant een Parquet-dataset van 200 GB op een laptop en bedient een analytisch endpoint in een Lambda, en dezelfde SQL werkt op een lokaal bestand of op een MotherDuck-warehouse zonder dat je de query moet herschrijven.

Waar je DuckDB-data voor dient

Wat je krijgt zodra DuckDB gekoppeld is.

Notebook en BI op hetzelfde DuckDB-bestand

Analisten openen hetzelfde .duckdb-bestand (of haken aan MotherDuck) en draaien analytische SQL zonder warehouse op te starten.

  • Python- en R-notebooks bevragen DuckDB rechtstreeks, zonder export-stap
  • BI-tools lezen dezelfde tabellen via de DuckDB JDBC- of ODBC-driver
  • Lokaal prototypen verhuist naar MotherDuck zonder de SQL te herschrijven

Pipeline-staging op Parquet en S3

DuckDB landt operationele data in Parquet en leest ze nadien terug van S3 met predicate-pushdown voor de volgende pipeline-stap.

  • Lees Parquet, CSV en JSON rechtstreeks van S3 of HTTPS via de httpfs-extensie
  • Hive-gepartitioneerde datasets worden bij querytijd geprund
  • Dezelfde engine schrijft de opgekuiste tabellen terug naar Parquet voor het warehouse

Vector search naast je feiten

DuckDB zet embeddings naast de operationele tabellen, zodat retrieval en aggregatie op één in-process engine draaien.

  • De VSS-extensie geeft HNSW-vectorindexen binnen dezelfde database
  • Embeddings joinen met klant- of productfeiten in één SQL-statement
  • Resultaten voeden Claude- of OpenAI-prompts zonder aparte vectorstore

Analytische endpoints in serverless functies

Lambda, Cloud Run en Workers nemen DuckDB mee in de functie en beantwoorden queries zonder database-round trip.

  • Vriendelijk voor cold-starts want DuckDB is één binary zonder server
  • Per-tenant Parquet-bestanden bevraagd met de juiste filters op request-tijd
  • DuckDB-Wasm draait dezelfde engine in de browser voor client-side analytics
Use cases

Use cases die we met DuckDB-data leveren.

Een lijst van concrete rapporten, automatisaties en AI-toepassingen die we op DuckDB-data hebben gebouwd. Kies er een die bij je situatie past.

Notebook-analyticsPython- of R-notebooks die analytische SQL rechtstreeks draaien op DuckDB-tabellen en Parquet-bestanden.
Parquet op S3Parquet-datasets op S3 lezen en schrijven met predicate- en projection-pushdown.
Pipeline-stagingOpgekuiste tabellen in DuckDB of Parquet stageren vóór ze in het warehouse landen.
Local-first prototypenModel bouwen op een laptop en dezelfde SQL naar MotherDuck of een serverless functie sturen.
Embedded analyticsDuckDB in een interne app of klantportaal die per-tenant queries beantwoordt.
Serverless analytische APILambda, Cloud Run of Workers serveren SQL-queries met DuckDB in de functie.
DuckDB-Wasm in browserClient-side analytics met dezelfde engine gecompileerd naar WebAssembly.
MotherDuck-warehouseDe managed DuckDB-cloud voor gedeelde tabellen, geplande jobs en zwaardere compute.
Vector search (VSS)HNSW-indexen in DuckDB zodat embeddings naast de feiten leven.
ELT-modelleerlaagdbt-duckdb of SQLMesh-transformaties op lokale bestanden of MotherDuck.
Kost-rekenwerkLokale DuckDB of MotherDuck gekozen op echte workload, niet op de brochure.
Echte vragen uit de praktijk

Antwoorden die je eindelijk krijgt.

Is DuckDB een alternatief voor Snowflake of BigQuery?

Niet rechtstreeks. DuckDB is een in-process analytische engine, geen gehoste multi-tenant warehouse. Ze past voor notebook-werk, pipeline-staging, embedded analytics en per-tenant queries op Parquet-datasets die op één machine passen of via MotherDuck opschalen. Snowflake en BigQuery blijven sterker voor beheerde enterprise-rapportering en grote groepen gebruikers die tegelijk op hetzelfde warehouse zitten. Veel stacks draaien intussen beide: DuckDB voor lokaal modelleren en serverless endpoints, het warehouse voor de bedrijfsbrede rapportagelaag.

Hebben we MotherDuck nodig of volstaat DuckDB?

DuckDB alleen dekt laptop-analytics, pipeline-staging, serverless endpoints en elke werklast waarin één proces de data al voor zich heeft. MotherDuck legt er gedeelde opslag, multi-user toegang, geplande SQL-jobs en zwaardere compute bovenop, met hetzelfde DuckDB-SQL-dialect. Wij kiezen standaard voor pure DuckDB bij embedded- en pipelinegebruik, en grijpen naar MotherDuck wanneer het team gedeelde tabellen en een managed runtime nodig heeft.

Hoe groot kan DuckDB gaan vóór we een echt warehouse nodig hebben?

DuckDB streamt data door haar vectorized executor en spilt naar disk waar nodig, dus ze trekt datasets die niet in geheugen passen en scant zonder problemen honderden gigabytes Parquet op één machine. Waar je eruit groeit, is zelden ruwe grootte; het zijn gelijktijdige gebruikers, gedeelde writes en governance. Wanneer tien mensen tegelijk in dezelfde tabel willen schrijven, stopt DuckDB de juiste tool te zijn en neemt een warehouse (of MotherDuck) over.

Waarde voor iedereen in de organisatie

Wat elke functie eruit haalt.

Voor finance leads

Finance-teams krijgen reproduceerbare SQL op één .duckdb-bestand dat iedereen op het team kan openen. Maandafsluitingen, margeanalyses en CFO-ad-hocvragen draaien op dezelfde Parquet-exports die het warehouse al maakt, zonder dat je warehouse-compute betaalt voor elke iteratie.

Voor sales leads

Sales ziet accountgebruik, pipeline-trends en productengagement op dezelfde Parquet-exports die het datateam al maakt. Account-reviews moeten niet meer wachten op een warehouse-refresh, want een DuckDB-query op de laatste export beantwoordt vragen per account in seconden.

Voor operations

Ops- en platformteams nemen DuckDB mee in Lambda, Cloud Run of een container-job en krijgen analytische SQL zonder een warehouse op te zetten voor elke interne tool. Per-tenant Parquet op S3 wordt op request-tijd bevraagd met predicate-pushdown, en dezelfde code draait lokaal voor debugging.

Je bestaande tools

Je data komt in een warehouse terecht. Je BI-tools lezen eruit.

Je houdt de rapporteringstool die je al hebt. Wij koppelen hem aan het warehouse waar je DuckDB-data staat.

Power BI logo
Power BI Microsoft
Microsoft Fabric logo
Fabric Microsoft
Snowflake logo
Snowflake Data warehouse
Google BigQuery logo
BigQuery Google
Tableau logo
Tableau Visualisatie
Microsoft Excel logo
Excel Spreadsheets & draaitabellen
In drie stappen

Van DuckDB naar antwoorden in drie stappen.

01

Veilig koppelen

OAuth-authenticatie. Standaard read-only. Wij tekenen een DPA en je admin houdt de sleutels.

02

Landen in je warehouse

Data stroomt naar je warehouse op het schema dat jij kiest. Bijna real-time of 's nachts, aan jou. Jij bent eigenaar.

03

Rapportering, automatisatie, AI

We bouwen het eerste dashboard, de eerste workflow of AI-toepassing samen met jou, en geven de sleutels over. Of we blijven erbij voor doorlopende levering.

Twee manieren om met ons te werken

Kies het traject dat past bij jouw team.

Traject 01

Zelf doen

Wij zetten de basis op. Jouw team bouwt erop verder.

  • DuckDB-connector geconfigureerd en draaiend
  • Warehouse opgezet in jouw cloud-account
  • Propere toegang voor je Power BI-, Fabric- of Tableau-team
  • Documentatie over wat er in het datamodel zit
  • Sync-monitoring zodat je gewaarschuwd wordt voor rapporten stukgaan

Beste match Teams die al een BI-analist of data engineer in huis hebben en zelf willen bouwen.

Traject 02

Wij doen het voor je

Wij bouwen het geheel, van A tot Z.

  • Alles uit Zelf doen
  • Dashboards gebouwd op de vragen die je team effectief stelt
  • Automatisaties tussen je systemen
  • AI-workflows afgestemd op taken die je team dagelijks draait
  • Custom apps waar een dashboard niet volstaat
  • Doorlopende levering op een tempo dat past bij je team

Beste match Teams zonder BI- of dev-capaciteit in huis. Jij zegt wat je nodig hebt en wij leveren het.

Voor je een gesprek boekt

Veelgestelde vragen.

Wie is eigenaar van de data?

Jij. Ze komt in jouw warehouse terecht, op jouw cloud-account. Wij verkopen ze niet door en aggregeren ze niet. Stop je met ons, dan blijft het warehouse van jou en blijft het draaien.

Hoe vers is de data?

Bijna real-time voor de meeste operationele systemen. Voor zwaardere bronnen plannen we per uur of per nacht. Je kiest op basis van wat de rapporten nodig hebben.

Moet ik al een warehouse hebben?

Nee. Heb je er geen, dan helpen we je er een kiezen en zetten we het op als deel van de eerste levering. Gangbare startpunten zijn Snowflake, Microsoft Fabric of een kleine Postgres-start.

Wanneer kiezen we DuckDB boven een warehouse zoals Snowflake of BigQuery?

DuckDB wint wanneer één proces de data al voor zich heeft: een notebook, een serverless functie, een pipeline-stap, een embedded app. Ze is in-process en columnar, draait geen server, en haalt zo een netwerk-hop en een hoop operationeel werk weg. Snowflake en BigQuery blijven sterker wanneer veel gebruikers tegelijk in hetzelfde beheerde warehouse moeten schrijven en queryen. Veel stacks draaien intussen beide: DuckDB voor lokaal modelleren, staging en per-tenant endpoints, en het warehouse als bedrijfsbrede rapportagelaag.

Wat voegt MotherDuck toe bovenop DuckDB?

MotherDuck is de managed cloudversie van DuckDB, opgericht door Jordan Tigani en team, gevestigd in Seattle. Ze legt gedeelde opslag, multi-user toegang, geplande SQL-jobs en zwaardere compute bovenop hetzelfde DuckDB-SQL-dialect. De brug van lokaal naar cloud is het punt: een notebook met pure DuckDB kan ATTACHen aan een MotherDuck-database en lokale Parquet joinen met cloudtabellen in één query.

Kan DuckDB Parquet rechtstreeks van S3 lezen zonder ze lokaal te kopiëren?

Ja. De httpfs-extensie laat DuckDB Parquet, CSV en JSON lezen over HTTPS en de S3-API, met predicate- en projection-pushdown zodat enkel de nodige row groups en kolommen de bucket verlaten. Hive-gepartitioneerde layouts (year=2024/month=04/...) worden bij querytijd geprund. Dezelfde query werkt op een lokaal bestand, een publieke HTTPS-URL of een private S3-prefix met de juiste credentials.

GDPR-conform
Data blijft in de EU
Jij bent eigenaar van het warehouse

Eerste oplevering live in vier tot zes weken.

We bekijken je DuckDB-opzet en de systemen eromheen. Samen kiezen we wat we als eerste bouwen.