Over Trino
De distributed SQL engine die de lake bevraagt waar de data al staat.
Trino is de open-source distributed SQL query engine die uit Presto is gegroeid, het project dat Martin Traverso, David Phillips en Dain Sundstrom in 2012 binnen Facebook startten om interactieve analytics te draaien op een Hadoop-warehouse zo groot als het bedrijf zelf. De drie oprichters verlieten Facebook in 2018, bouwden de engine buiten verder als PrestoSQL, en hernoemden het project in december 2020 tot Trino na een handelsmerk-conflict met Facebook over de naam Presto. De code blijft onder Apache 2.0; de Trino Software Foundation beheert het project; Starburst, mee opgericht door dezelfde Presto-makers samen met Justin Borgman, levert de commerciële managed versie.
De architectuur is coordinator en workers, met één SQL-plan dat uitwaaiert over zoveel machines als de cluster telt. Waar Trino zich van een warehouse onderscheidt, is de connector-laag: Iceberg, Delta Lake, Hudi, Hive, Postgres, MySQL, SQL Server, Snowflake, BigQuery, Cassandra, MongoDB, Kafka en zowat dertig andere zitten allemaal achter hetzelfde SQL-dialect, joinbaar in één query. Net dat is waarom Netflix, LinkedIn, Goldman Sachs, Salesforce, Stripe, Shopify en Lyft hun interactieve analytics op Trino bouwden: één engine leest Parquet op S3 naast Postgres-rijen naast Snowflake-tabellen, zonder kopieerstap ertussen. Trino is geen OLTP-database en geen vervanging voor Snowflake of BigQuery; ze is de SQL-laag die je toelaat om de lake te bevragen en over systemen te federeren zonder de data eerst naar buiten te trekken.