Over DuckDB
De in-process columnar database voor analytische SQL waar je code ook draait.
DuckDB is in 2018 ontstaan in de Database Architectures-groep van het CWI in Amsterdam, hetzelfde lab waar MonetDB vandaan komt, met Mark Raasveldt en Hannes Mühleisen als oorspronkelijke auteurs. De eerste publieke release dateert van 2019 en versie 1.0 (codenaam Snow Duck) is uitgebracht op 3 juni 2024, met een stabiel on-disk formaat dat latere versies blijven lezen. De code staat onder MIT-licentie, wordt beheerd door de DuckDB Foundation en gebouwd door DuckDB Labs in Amsterdam; MotherDuck levert de managed cloudversie en is een van de gold sponsors van het project.
De engine is in-process en columnar. Er draait geen server, je opent geen poort en je beheert geen replicatie; DuckDB is een library die in Python, R, Node, Java, Rust, de CLI, je data-app of een serverless functie leeft. Binnen dat proces zet ze tabellen kolom per kolom op disk, draait ze een vectorized executor op batches rijen en leest ze Parquet, CSV en JSON rechtstreeks van lokale disk, een HTTPS-URL of een S3-bucket, met predicate- en projection-pushdown erbij. Dezelfde binary scant een Parquet-dataset van 200 GB op een laptop en bedient een analytisch endpoint in een Lambda, en dezelfde SQL werkt op een lokaal bestand of op een MotherDuck-warehouse zonder dat je de query moet herschrijven.