Trino-connector

Draai verdeelde SQL over je data lake en je operationele systemen zonder alles eerst te kopiëren.

Data Panda landt operationele data in Iceberg-, Delta- of Hive-tabellen op S3 en zet Trino erbovenop. Vanaf daar federeert één SQL-laag de lake, het warehouse en de bronsystemen achter je zaak, zodat rapportering, automatisering, AI en apps dezelfde cijfers lezen zonder dat er een ETL-stap tussenkomt.

Over Trino

De distributed SQL engine die de lake bevraagt waar de data al staat.

Trino is de open-source distributed SQL query engine die uit Presto is gegroeid, het project dat Martin Traverso, David Phillips en Dain Sundstrom in 2012 binnen Facebook startten om interactieve analytics te draaien op een Hadoop-warehouse zo groot als het bedrijf zelf. De drie oprichters verlieten Facebook in 2018, bouwden de engine buiten verder als PrestoSQL, en hernoemden het project in december 2020 tot Trino na een handelsmerk-conflict met Facebook over de naam Presto. De code blijft onder Apache 2.0; de Trino Software Foundation beheert het project; Starburst, mee opgericht door dezelfde Presto-makers samen met Justin Borgman, levert de commerciële managed versie.

De architectuur is coordinator en workers, met één SQL-plan dat uitwaaiert over zoveel machines als de cluster telt. Waar Trino zich van een warehouse onderscheidt, is de connector-laag: Iceberg, Delta Lake, Hudi, Hive, Postgres, MySQL, SQL Server, Snowflake, BigQuery, Cassandra, MongoDB, Kafka en zowat dertig andere zitten allemaal achter hetzelfde SQL-dialect, joinbaar in één query. Net dat is waarom Netflix, LinkedIn, Goldman Sachs, Salesforce, Stripe, Shopify en Lyft hun interactieve analytics op Trino bouwden: één engine leest Parquet op S3 naast Postgres-rijen naast Snowflake-tabellen, zonder kopieerstap ertussen. Trino is geen OLTP-database en geen vervanging voor Snowflake of BigQuery; ze is de SQL-laag die je toelaat om de lake te bevragen en over systemen te federeren zonder de data eerst naar buiten te trekken.

Waar je Trino-data voor dient

Wat je krijgt zodra Trino gekoppeld is.

BI op de lake, niet op een kopie

Power BI, Tableau en Metabase lezen gecureerde Iceberg- of Delta-tabellen via Trino, zonder te wachten op een warehouse-laadronde.

JDBC- en ODBC-drivers stellen Trino open voor elk BI-tool dat SQL spreekt
Iceberg- en Delta-tabellen ter plaatse bevraagd op S3 met predicate-pushdown
Joins over Postgres of Snowflake zonder extra ETL ertussen

Federation in plaats van punt-tot-punt-ETL

Trino joint operationele databases, het warehouse en de lake in één query, dus je stopt met data kopiëren om ze te kunnen combineren.

Eén SQL-statement over Postgres, Snowflake en S3-Parquet
Reverse-ETL-queries één keer geschreven en hergebruikt op de laatste tabellen
Lakehouse-pipelines die rauw lezen en gecureerd schrijven, allemaal binnen Trino

AI op warehouse-data uit de lake

LLM- en ML-pipelines trekken gecontroleerde Trino-resultaten in plaats van CSV's aan elkaar te plakken.

RAG-context-queries treffen dezelfde Iceberg-tabellen die BI leest
Embeddings in Postgres of Pinecone joinen met lake-feiten in één query
Notebook- en agent-code praat tegen één SQL-endpoint in plaats van vijf connectoren

Interne apps op één federated SQL-endpoint

Custom dashboards, klantportalen en Streamlit-apps bevragen Trino één keer en raken zo elke onderliggende store.

Eén connectiestring dekt lake, warehouse en operationele tabellen
Per-tenant-filters worden doorgeduwd in Iceberg partition-pruning
Schemas evolueren in de bron zonder de SQL van de app te breken

Use cases

Use cases die we met Trino-data leveren.

Een lijst van concrete rapporten, automatisaties en AI-toepassingen die we op Trino-data hebben gebouwd. Kies er een die bij je situatie past.

Lakehouse-SQLIceberg-, Delta- en Hive-tabellen op S3 ter plaatse bevraagd, op warehouse-snelheid.

Federated joinsEén query die Postgres, Snowflake en Parquet op S3 joint zonder eerst te exporteren.

Cold-storage analyticsJaren historiek op object storage blijven bevraagbaar zonder herstel naar een warehouse.

Reverse ETL via SQLSchrijf SQL op de lake en duw het resultaat terug naar het operationele systeem dat het nodig heeft.

ETL-vervangingFederate over bronnen in plaats van weer een extract-job te bouwen voor één eenmalige vraag.

Ad-hoc data-exploratieAnalisten schrijven SQL op elke bron die de cluster kent, zonder ticket bij data engineering.

BI op IcebergPower BI, Tableau en Metabase aangesloten op een Trino-endpoint dat de lake ontsluit.

Schema-migratieOude MySQL- of SQL Server-queries draaien onveranderd op de nieuwe Iceberg-layout.

Data product APIEén SQL-endpoint achter interne API's die uit veel bronnen moeten lezen.

Kost-rekenwerkSelf-managed Trino, Starburst Galaxy of AWS Athena gekozen op werklast, niet op de brochure.

AI-retrieval-laagAgents en RAG-pipelines bevragen één Trino SQL-endpoint in plaats van vijf connectoren.

Echte vragen uit de praktijk

Antwoorden die je eindelijk krijgt.

Is Trino een vervanging voor Snowflake of BigQuery?

Nee. Trino is een query engine, geen managed warehouse. Ze draait SQL over wat de connectoren ook aanwijzen: Iceberg of Delta op S3, Postgres, MySQL, Snowflake zelf, BigQuery, Cassandra, Mongo. Snowflake en BigQuery winnen nog altijd wanneer je een managed warehouse met ingebouwde opslag, governance en concurrency voor veel BI-gebruikers wil. Veel stacks draaien intussen beide: het warehouse voor de gecureerde rapportagelaag, Trino voor federation over de lake en de operationele systemen die niemand wil binnenkopiëren.

Waarom zouden we Trino draaien in plaats van Athena?

Athena is in essentie managed Trino op AWS, dus voor S3-only werklasten binnen één AWS-account is ze vaak de simpelste keuze. Self-managed Trino of Starburst wordt interessant zodra je federation nodig hebt over systemen die Athena niet kent (een Snowflake-account, een Postgres-replica, een MongoDB-cluster), wanneer je compute wil vastpinnen en weg wil van per-query-facturatie, of wanneer je op Azure of GCP draait. Het is een werklastvraag, geen religieuze: een klein AWS-only team start met Athena, federated cross-cloud-setups belanden op Trino of Starburst Galaxy.

We hebben al een data lake op S3. Wat verandert Trino concreet?

Ze maakt van de lake iets dat analisten met SQL kunnen bevragen, in plaats van met Spark of notebooks. Eens Iceberg- of Delta-tabellen op S3 staan, geeft een Trino-cluster BI-tools een JDBC-endpoint dat ze ter plaatse leest met partition pruning en predicate pushdown. Dezelfde cluster kan die lake-tabellen in één query joinen met Postgres of het warehouse, dus de lake stopt een write-only-archief te zijn en wordt het analytische oppervlak.

Waarde voor iedereen in de organisatie

Wat elke functie eruit haalt.

Voor finance leads

Finance-teams houden jaren afsluithistoriek op goedkope object storage en bevragen ze toch via hetzelfde SQL-endpoint als het levende grootboek. Een reconciliatie die drie jaar boekingen nodig heeft, moet niet meer wachten op een warehouse-herstel; Trino leest de Iceberg-tabellen rechtstreeks.

Voor sales leads

Sales operations krijgt één SQL-laag die CRM, facturatie, support en productgebruik joint zonder dat er 's nachts een ELT naar een apart warehouse moet draaien. Account-reviews blokkeren niet meer op een data-engineering-ticket want de data staat al waar Trino ze kan lezen.

Voor operations

Data- en platformverantwoordelijken houden warehouse-kost in toom door verkennende en federation-werklasten via Trino op de lake te draaien in plaats van op het productie-warehouse. Gevoelige operationele systemen blijven staan waar ze staan; Trino leest ze ter plaatse met role-based credentials per catalog.

Je bestaande tools

Je data komt in een warehouse terecht. Je BI-tools lezen eruit.

Je houdt de rapporteringstool die je al hebt. Wij koppelen hem aan het warehouse waar je Trino-data staat.

Power BI Microsoft

Fabric Microsoft

Snowflake Data warehouse

BigQuery Google

Tableau Visualisatie

Excel Spreadsheets & draaitabellen

In drie stappen

Van Trino naar antwoorden in drie stappen.

Veilig koppelen

OAuth-authenticatie. Standaard read-only. Wij tekenen een DPA en je admin houdt de sleutels.

Landen in je warehouse

Data stroomt naar je warehouse op het schema dat jij kiest. Bijna real-time of 's nachts, aan jou. Jij bent eigenaar.

Rapportering, automatisatie, AI

We bouwen het eerste dashboard, de eerste workflow of AI-toepassing samen met jou, en geven de sleutels over. Of we blijven erbij voor doorlopende levering.

Twee manieren om met ons te werken

Kies het traject dat past bij jouw team.

Traject 01

Zelf doen

Wij zetten de basis op. Jouw team bouwt erop verder.

Trino-connector geconfigureerd en draaiend
Warehouse opgezet in jouw cloud-account
Propere toegang voor je Power BI-, Fabric- of Tableau-team
Documentatie over wat er in het datamodel zit
Sync-monitoring zodat je gewaarschuwd wordt voor rapporten stukgaan

Beste match Teams die al een BI-analist of data engineer in huis hebben en zelf willen bouwen.

Traject 02

Wij doen het voor je

Wij bouwen het geheel, van A tot Z.

Alles uit Zelf doen
Dashboards gebouwd op de vragen die je team effectief stelt
Automatisaties tussen je systemen
AI-workflows afgestemd op taken die je team dagelijks draait
Custom apps waar een dashboard niet volstaat
Doorlopende levering op een tempo dat past bij je team

Beste match Teams zonder BI- of dev-capaciteit in huis. Jij zegt wat je nodig hebt en wij leveren het.

Voor je een gesprek boekt

Veelgestelde vragen.

Wie is eigenaar van de data?

Jij. Ze komt in jouw warehouse terecht, op jouw cloud-account. Wij verkopen ze niet door en aggregeren ze niet. Stop je met ons, dan blijft het warehouse van jou en blijft het draaien.

Hoe vers is de data?

Bijna real-time voor de meeste operationele systemen. Voor zwaardere bronnen plannen we per uur of per nacht. Je kiest op basis van wat de rapporten nodig hebben.

Moet ik al een warehouse hebben?

Nee. Heb je er geen, dan helpen we je er een kiezen en zetten we het op als deel van de eerste levering. Gangbare startpunten zijn Snowflake, Microsoft Fabric of een kleine Postgres-start.

Wat is het verschil tussen Trino en Presto?

Trino is het project dat de oorspronkelijke Presto-oprichters Martin Traverso, David Phillips en Dain Sundstrom bleven bouwen nadat ze in 2018 bij Facebook vertrokken. Ze noemden het eerst PrestoSQL en hernoemden het in december 2020 tot Trino na een handelsmerk-conflict met Facebook over de naam Presto. De Apache 2.0-codebase, de bijdragers en de community gingen mee; PrestoDB, het Linux Foundation-project, is de aparte fork die in de Facebook-orbit bleef. Wanneer teams vandaag 'Presto' zeggen, bedoelen ze meestal Trino.

Draaien we Trino zelf of betalen we voor Starburst?

Self-managed Trino werkt prima voor een stabiele, goed begrepen werklast waar één team de cluster-lifecycle in handen heeft. Starburst Galaxy is de managed cloudversie van de firma die de Trino-makers mee oprichtten, en haalt de cluster-operaties weg in ruil voor een per-credit-factuur, plus ze legt er connectoren, governance en een query-catalog bovenop die de open-source build niet meelevert. We kiezen op hoeveel geduld het team heeft voor cluster-ops tegenover hoeveel budget er is voor managed compute.

Maakt het uit of we data in Iceberg of Delta landen voor Trino?

Beide werken en Trino heeft een first-class connector voor elk. Iceberg is het formaat waar het Trino-project zelf het hardst op leunt, met sterke steun voor partition evolution, hidden partitioning en time travel. Delta Lake werkt via de Delta-connector en is de logische keuze voor stacks die al Databricks gebruiken. De keuze wordt zelden door Trino gestuurd; ze volgt waar de rest van het dataplatform staat.

GDPR-conform

Data blijft in de EU

Jij bent eigenaar van het warehouse

Eerste oplevering live in vier tot zes weken.

We bekijken je Trino-opzet en de systemen eromheen. Samen kiezen we wat we als eerste bouwen.

Plan een gesprek Bekijk onze andere connectors