Over Apache Airflow
Waar data-teams hun pipelines plannen, draaien en opvolgen.
Apache Airflow is het open-source platform waarop data-teams hun pipelines plannen, draaien en opvolgen. Engineers schrijven elke pipeline als een Python-DAG (een graaf van taken met dependencies, retries en timing-regels), Airflow plant ze, draait ze, en houdt een record bij van elke run, elke taak en elke retry. De community onderhoudt een lange lijst providers voor de warehouses, SaaS-systemen en cloud-services die die taken aanraken, zodat dezelfde scheduler ELT naar Snowflake doet, een dbt-run start en bij een fout Slack pingt.
Wat teams op Airflow bouwen, gaat van nachtelijke ELT naar het data-warehouse over ML-trainingjobs, data-kwaliteitschecks en rapportgeneratie tot klantgerichte exports. Met de run-historiek van Airflow naast je warehouse-data wordt de vraag welke DAG fragiel is, welk team eigenaar is en wat elke run je kost een dashboard, in plaats van een blik in de web-UI.