ClickHouse-connector

Zet bedrijfsdata in ClickHouse en draai sub-seconde analytics op miljarden rijen.

Data Panda haalt data uit je CRM, ERP, webshop, product- en eventsystemen en zet ze op een vast schema in ClickHouse. Eens alles in één columnar warehouse zit, bevragen je dashboards, automatisaties, AI-flows en interne apps dezelfde tabellen en krijgen ze antwoorden in milliseconden in plaats van minuten.

Data Panda Reporting Automation AI Apps
ClickHouse logo
Over ClickHouse

De columnar OLAP-database gebouwd voor real-time analytics op grote tabellen.

ClickHouse is in 2009 binnen Yandex ontstaan als interne analytics-engine voor Yandex Metrica, het webstatistieken-product van het bedrijf. In 2016 is het uitgebracht als open-source software onder de Apache 2.0-licentie, en in september 2021 is ClickHouse Inc opgericht in San Francisco. Het bedrijf levert vandaag de open-source database naast ClickHouse Cloud, een managed dienst op AWS, GCP en Azure.

De architecturale keuze die ClickHouse definieert: columnar opslag met vectorized uitvoering. Tabellen staan kolom per kolom op disk, queries lezen enkel de kolommen die ze nodig hebben, en de engine verwerkt data in batches die proper op de CPU-instructies van vandaag mappen. De MergeTree-familie van table engines legt er een sparse primary-key-index bovenop, met granules van 8.192 rijen als default, en dat is wat één server miljarden rijen in één of twee seconden laat scannen. De keerzijde: de keuzes die je op dag één maakt (de ORDER BY-key, de partitie-expressie, de compressiecodec) bepalen hoe het warehouse zes maanden later draait, wanneer de tabel op 50 miljard rijen zit en queries die vroeger meteen terugkwamen plots de hele tabel scannen. Wij landen de data, modelleren ze voor de queries die je echt draait, en kiezen de engine-instellingen zo dat ClickHouse in zijn sub-seconde sweet spot blijft in plaats van een trage scan-engine te worden.

Waar je ClickHouse-data voor dient

Wat je krijgt zodra ClickHouse gekoppeld is.

Sub-seconde dashboards op grote tabellen

BI-tools bevragen ClickHouse-feittabellen en geven aggregaties op miljarden rijen terug in milliseconden.

  • Metabase, Superset en Grafana lezen dezelfde MergeTree-tabellen
  • Eén omzet- en klantdefinitie over operationele en event-data
  • Time-seriesfilters komen meteen terug omdat de ORDER BY-key bij de query past

Streaming-ingest op een vast ritme

Operationele en event-data landen continu of in geplande batches in ClickHouse, niet per dashboard.

  • Kafka, Pulsar of batchloads in dezelfde MergeTree-tabellen
  • Materialized views berekenen de zware aggregaties al bij insert
  • Mislukte ladingen komen boven vóór de ochtendrapporten draaien

Vector- en aggregaatwerk naast elkaar

ClickHouse zet vectors naast je feittabellen, zodat embedding- en aggregaatqueries op één engine draaien.

  • Vector search via de ingebouwde afstands- en ANN-functies
  • Aggregaties joinen met embedding-lookups in één SQL-statement
  • Resultaten voeden LLM-prompts zonder aparte vectorstore

Customer-facing analytics in apps

Interne tools en klantportalen bevragen ClickHouse rechtstreeks en krijgen antwoord op tijd voor de volgende klik.

  • Per-tenant sneden uit één warehouse met row-level filters
  • HTTP- en native protocollen voor queries vanuit de app
  • Sub-seconde latency maakt embedded analytics deel van de app
Use cases

Use cases die we met ClickHouse-data leveren.

Een lijst van concrete rapporten, automatisaties en AI-toepassingen die we op ClickHouse-data hebben gebouwd. Kies er een die bij je situatie past.

Real-time dashboardsSub-seconde BI op miljarden rijen waar het warehouse vroeger op timeout liep.
Event- en clickstreamProduct- en web-events in MergeTree voor funnels en retentie.
Observability-backendLogs, metrics en traces in één columnar store met warehouse-compressie.
Customer-facing analyticsPer-tenant sneden in je apps met row-level filtering.
MergeTree-keys ontwerpenORDER BY- en partitiekeys gekozen voor de queries die je echt draait.
Materialized viewsZware aggregaties berekend bij insert, zodat dashboards op kant-en-klare rollups lezen.
Kafka of Pulsar-ingestStreaming pipelines in ClickHouse zonder aparte ETL-laag.
Cloud of self-hostedClickHouse Cloud op AWS, GCP, Azure of zelf gehost op eigen ijzer.
S3 als koude opslagTiered storage zodat oudere partities op S3 staan in plaats van op snelle disk.
Vector searchEmbeddings naast feittabellen voor gecombineerde vector- en SQL-queries.
Kost-rekenwerkCloud of self-hosted kiezen op echte workload, niet op de brochure.
Echte vragen uit de praktijk

Antwoorden die je eindelijk krijgt.

Waarom scant onze ClickHouse-query die vroeger 200 ms duurde nu elke part op disk?

Bijna altijd omdat de partitiekey te veel waarden heeft, waardoor ClickHouse geen partities meer kan prunen en de merge-scheduler achterop raakt. Een klassieker is per dag partitioneren op een tabel die per maand had moeten staan, of per user id terwijl de query nooit op user id filtert. De partitie-expressie en de ORDER BY op de zwaarste tabellen herzien zet de query meestal terug waar hij stond.

Moeten we ClickHouse Cloud draaien of zelf hosten op eigen servers?

ClickHouse Cloud splitst opslag en compute, schaalt rustige resources naar nul en haalt het operationele werk van het cluster runnen weg. Zelf hosten is bij stabiele hoge load merkbaar goedkoper, zeker als je al hardware of AWS-engagementen hebt, maar je draagt de upgrades, replicatie en backups zelf. Wij dimensioneren beide opties op het echte query- en ingestprofiel vóór we de keuze maken.

We gebruiken Snowflake of BigQuery voor de rest van het bedrijf. Waar past ClickHouse dan?

Snowflake en BigQuery zijn sterk voor dagelijkse en wekelijkse rapportering op warehouse-data. ClickHouse past wanneer de workload event-vormig is, de tabel in de miljarden rijen zit en het dashboard of de app onder de seconde moet terugkomen. Veel BE/NL-stacks draaien Snowflake of BigQuery voor finance- en CRM-analytics en zetten ClickHouse ernaast voor product-events, observability of embedded customer-facing analytics.

Waarde voor iedereen in de organisatie

Wat elke functie eruit haalt.

Voor finance leads

De CFO krijgt een real-time zicht op kost-per-event, infrastructuuruitgaven per productlijn en unit economics op gebruiksdata die vroeger in logs bleef hangen. ClickHouse bewaart de event-historiek op warehouse-compressie, en rapporten waar vroeger een nachtelijke job voor draaide ververst nu in seconden.

Voor sales leads

Sales ziet productengagement, accountgebruik en feature-adoptie op dezelfde feittabellen die het CRM leest. Account-reviews steunen niet meer op een staal-export van vorige week, want het warehouse beantwoordt vragen per account in real time.

Voor operations

Ops- en platformteams krijgen logs, metrics en traces in één columnar store met warehouse-compressie. Incidentanalyse leest dezelfde data als de dashboards, en de observability-factuur is niet meer de luidste lijn op de cloud-rekening.

Je bestaande tools

Je data komt in een warehouse terecht. Je BI-tools lezen eruit.

Je houdt de rapporteringstool die je al hebt. Wij koppelen hem aan het warehouse waar je ClickHouse-data staat.

Power BI logo
Power BI Microsoft
Microsoft Fabric logo
Fabric Microsoft
Snowflake logo
Snowflake Data warehouse
Google BigQuery logo
BigQuery Google
Tableau logo
Tableau Visualisatie
Microsoft Excel logo
Excel Spreadsheets & draaitabellen
In drie stappen

Van ClickHouse naar antwoorden in drie stappen.

01

Veilig koppelen

OAuth-authenticatie. Standaard read-only. Wij tekenen een DPA en je admin houdt de sleutels.

02

Landen in je warehouse

Data stroomt naar je warehouse op het schema dat jij kiest. Bijna real-time of 's nachts, aan jou. Jij bent eigenaar.

03

Rapportering, automatisatie, AI

We bouwen het eerste dashboard, de eerste workflow of AI-toepassing samen met jou, en geven de sleutels over. Of we blijven erbij voor doorlopende levering.

Twee manieren om met ons te werken

Kies het traject dat past bij jouw team.

Traject 01

Zelf doen

Wij zetten de basis op. Jouw team bouwt erop verder.

  • ClickHouse-connector geconfigureerd en draaiend
  • Warehouse opgezet in jouw cloud-account
  • Propere toegang voor je Power BI-, Fabric- of Tableau-team
  • Documentatie over wat er in het datamodel zit
  • Sync-monitoring zodat je gewaarschuwd wordt voor rapporten stukgaan

Beste match Teams die al een BI-analist of data engineer in huis hebben en zelf willen bouwen.

Traject 02

Wij doen het voor je

Wij bouwen het geheel, van A tot Z.

  • Alles uit Zelf doen
  • Dashboards gebouwd op de vragen die je team effectief stelt
  • Automatisaties tussen je systemen
  • AI-workflows afgestemd op taken die je team dagelijks draait
  • Custom apps waar een dashboard niet volstaat
  • Doorlopende levering op een tempo dat past bij je team

Beste match Teams zonder BI- of dev-capaciteit in huis. Jij zegt wat je nodig hebt en wij leveren het.

Voor je een gesprek boekt

Veelgestelde vragen.

Wie is eigenaar van de data?

Jij. Ze komt in jouw warehouse terecht, op jouw cloud-account. Wij verkopen ze niet door en aggregeren ze niet. Stop je met ons, dan blijft het warehouse van jou en blijft het draaien.

Hoe vers is de data?

Bijna real-time voor de meeste operationele systemen. Voor zwaardere bronnen plannen we per uur of per nacht. Je kiest op basis van wat de rapporten nodig hebben.

Moet ik al een warehouse hebben?

Nee. Heb je er geen, dan helpen we je er een kiezen en zetten we het op als deel van de eerste levering. Gangbare startpunten zijn Snowflake, Microsoft Fabric of een kleine Postgres-start.

ClickHouse Cloud of self-hosted: hoe kiezen we?

ClickHouse Cloud (managed op AWS, GCP of Azure) splitst opslag en compute en schaalt rustige resources naar nul, wat past bij spikeyere of groeiende workloads waar je het cluster niet zelf wil runnen. Zelf hosten is bij stabiele hoge load merkbaar goedkoper, maar je draagt replicatie, backups en versie-upgrades. Wij dimensioneren beide op de echte ingestsnelheid, querymix en teamcapaciteit vóór we de keuze maken.

Waarom zijn de keuzes van MergeTree primary key en partitie zo belangrijk?

ClickHouse werkt met een sparse primary-key-index met granules van 8.192 rijen als default, dus de ORDER BY-key bepaalt welke queries sub-seconde terugkomen en welke de tabel scannen. De partitie-expressie bepaalt of ClickHouse hele parts kan prunen op query-tijd en of de merge-scheduler kan volgen. De officiële docs waarschuwen expliciet tegen partitioneren op velden met hoge cardinaliteit zoals klant-id's; die horen in de ORDER BY, niet in de PARTITION BY.

Wanneer kiezen we ClickHouse boven Snowflake of BigQuery?

ClickHouse wint op workloads waar de tabel in de miljarden rijen zit en het dashboard of de app onder de seconde moet terugkomen, typisch product-events, clickstream, observability, ad-tech en embedded customer-facing analytics. Snowflake en BigQuery blijven sterker voor beheerde enterprise-rapportering op kleinere, trager wijzigende data. Veel stacks draaien beide: Snowflake of BigQuery voor finance en CRM, ClickHouse ernaast voor de high-cardinality, low-latency-werklast.

GDPR-conform
Data blijft in de EU
Jij bent eigenaar van het warehouse

Eerste oplevering live in vier tot zes weken.

We bekijken je ClickHouse-opzet en de systemen eromheen. Samen kiezen we wat we als eerste bouwen.