Over ClickHouse
De columnar OLAP-database gebouwd voor real-time analytics op grote tabellen.
ClickHouse is in 2009 binnen Yandex ontstaan als interne analytics-engine voor Yandex Metrica, het webstatistieken-product van het bedrijf. In 2016 is het uitgebracht als open-source software onder de Apache 2.0-licentie, en in september 2021 is ClickHouse Inc opgericht in San Francisco. Het bedrijf levert vandaag de open-source database naast ClickHouse Cloud, een managed dienst op AWS, GCP en Azure.
De architecturale keuze die ClickHouse definieert: columnar opslag met vectorized uitvoering. Tabellen staan kolom per kolom op disk, queries lezen enkel de kolommen die ze nodig hebben, en de engine verwerkt data in batches die proper op de CPU-instructies van vandaag mappen. De MergeTree-familie van table engines legt er een sparse primary-key-index bovenop, met granules van 8.192 rijen als default, en dat is wat één server miljarden rijen in één of twee seconden laat scannen. De keerzijde: de keuzes die je op dag één maakt (de ORDER BY-key, de partitie-expressie, de compressiecodec) bepalen hoe het warehouse zes maanden later draait, wanneer de tabel op 50 miljard rijen zit en queries die vroeger meteen terugkwamen plots de hele tabel scannen. Wij landen de data, modelleren ze voor de queries die je echt draait, en kiezen de engine-instellingen zo dat ClickHouse in zijn sub-seconde sweet spot blijft in plaats van een trage scan-engine te worden.