Anyscale-connector

Draai Ray bovenop je warehouse-data.

Data Panda zet je operationele data en warehouse-data op één plek en stuurt ze door naar een Anyscale Ray-cluster. Train modellen, doe LLM-finetuning, draai batch-inference en serveer online endpoints, allemaal op de data die je bedrijf zelf genereert.

Over Anyscale

Managed Ray, gebouwd door wie Ray bedacht.

Anyscale werd in 2019 opgericht door Robert Nishihara, Philipp Moritz en Ion Stoica, hetzelfde team dat tussen 2016 en 2017 Ray bouwde aan UC Berkeley's RISELab. Ion Stoica is ook medeoprichter van Databricks en zit vandaag de raad van Anyscale voor; Philipp Moritz is CTO en Robert Nishihara is de derde medeoprichter. Keerti Melkote nam in 2024 het CEO-stokje over.

Het product is het Anyscale Platform: een managed, multi-cloud runtime voor Ray die draait op AWS, GCP, Azure, CoreWeave en Nebius. Het wikkelt de Ray-bibliotheken (Ray Data voor distributed dataverwerking, Ray Train voor modeltraining, Ray Serve voor online inference, Ray Tune voor hyperparameter search en RLlib voor reinforcement learning) in met workspaces, jobs, services, observability, governance en priority-aware GPU-scheduling. OpenAI gebruikt Ray om de training van zijn grootste modellen te coördineren, ChatGPT incluis, en de eigen klantenlijst van Anyscale telt onder meer Coinbase, Character.ai, Canva, Notion, Runway, Grab, Recursion, TripAdvisor, TwelveLabs, Riot Games en Physical Intelligence. Het open-source Ray-project heeft meer dan 41.000 GitHub-sterren en meer dan 500 miljoen downloads achter de rug.

Waar je Anyscale-data voor dient

Wat je krijgt zodra Anyscale gekoppeld is.

Cluster-kost gekoppeld aan model-output

GPU-uren en Anyscale-kost per job, naast het model dat de job opleverde en de bedrijfsworkflow die het model gebruikt.

Kost per Anyscale-workspace, -job en -service, gekoppeld aan het team en het modelartefact dat elke run voortbracht
GPU-bezetting per cluster opgesplitst naar Ray Data-voorbewerking, Ray Train-epochs en Ray Serve-replicas
Slaagratio en doorlooptijd van Ray Train-jobs, uitgezet tegenover datasetversie en modelgrootte

Voorspellingen terug naar de operationele stack

Ray Serve-scores of batch-voorspellingen rechtstreeks weggeschreven naar de systemen waar je team werkt.

Lead-scoringmodel getraind met Ray Train, geserveerd via Ray Serve, score weggeschreven naar HubSpot of Salesforce bij elke contactupdate
Churn-voorspellingen 's nachts in batch berekend met Ray Data en Ray Train, gedropt in het CRM als tag en in het warehouse als kolom
Vraagvoorspellingen uit een Ray Tune-sweep weggeschreven naar de ERP-planningstabel die de inkoper toch al opent

Train en finetune op je eigen data

Haal warehouse-inhoud binnen in een Ray-cluster, finetune of train, schrijf het artefact weg naar modelopslag.

LLM-finetuning op interne documenten, supporttickets en productteksten, met Ray Train die de GPU's coördineert
RLHF en post-training-loops bovenop een open-weight model met de klantfeedback-rijen uit het warehouse
Aanbevelings- en rankingmodellen getraind op klik- en bestelhistoriek, met Ray Tune die de hyperparameter-ruimte afzoekt

Interne apps die je eigen model bevragen

Custom tools die warehouse-data lezen en een Ray Serve-endpoint aanroepen in plaats van een publieke LLM-API.

Triage-assistent die supportcases classificeert tegenover een model getraind op je eigen ticket-historiek
Multimodale product-taggingapp die een vision-model op Ray Serve loslaat op de catalogusafbeeldingen in S3
Interne embedding-service die warehouse-documenten op schema her-indexeert met Ray Data en een eigen model

Use cases

Use cases die we met Anyscale-data leveren.

Een lijst van concrete rapporten, automatisaties en AI-toepassingen die we op Anyscale-data hebben gebouwd. Kies er een die bij je situatie past.

Distributed modeltrainingRay Train verspreidt PyTorch- of XGBoost-training over GPU- en CPU-nodes op AWS, GCP, Azure, CoreWeave of Nebius.

LLM-finetuning op interne dataOpen-weight LLM getuned op warehouse-documenten, tickets en productteksten via Ray Train.

Batch-inference op schaalRay Data en Ray Train scoren miljoenen warehouse-rijen 's nachts, output teruggeschreven als kolom of tag.

Online serving met Ray ServeGetraind model als autoscaling HTTP-endpoint, opgeroepen vanuit interne apps en CRM-workflows.

Hyperparameter-search met Ray TuneRay Tune doet sweeps over learning rate, batch size en architectuurkeuzes op dezelfde managed cluster.

RLHF en post-training-loopsReinforcement-learning-finetuning op klantfeedback-rijen met RLlib of community-frameworks zoals SkyRL.

Multimodale dataprepRay Data-pipelines voor video, beeld, tekst en audio op terabyte-schaal vóór de training start.

Embeddings in batch genererenWarehouse-documenten op schema her-embedden met een eigen model, vectoren wegschrijven naar je zoekindex.

Multi-cloud en burst-capaciteitDezelfde Ray-code draait op AWS, GCP, Azure, CoreWeave of Nebius zonder herschrijven; bursting naar wie GPU's heeft.

Kost- en bezettingsrapporteringGPU-uren en kost per job gekoppeld aan het modelartefact en de workflow die de voorspellingen gebruikt.

Echte vragen uit de praktijk

Antwoorden die je eindelijk krijgt.

Welke Ray-jobs verbruiken het meeste, en wordt de model-output ook gebruikt?

GPU-uren en Anyscale-kost per job en per workspace, gekoppeld aan het modelartefact dat elke job opleverde en aan de downstream workflow die het model oproept. Brengt de wekelijkse fine-tune naar boven die het grootste deel van het cluster-budget opmaakt terwijl zijn model nog op een oude versie geprikt staat, naast de lichtere Ray Tune-sweep die de recommender opleverde die vandaag in productie draait.

Verdienen onze Ray Serve-endpoints hun GPU's nog?

Ray Serve-aanvraagvolume, latency en foutpercentage per endpoint, gekoppeld aan GPU-bezetting en kost. Vangt het always-on endpoint dat vijf calls per dag bedient op twee gereserveerde GPU's, en het drukke endpoint dat ver boven zijn budget aan het autoscalen is omdat elke interne app een retry-loop heeft toegevoegd.

Is de data die we de cluster voeren wel vers genoeg?

Lineage vanaf het bronsysteem via de warehouse-tabel tot de datasetversie die een Ray Train-job binnenkreeg, met tijdstempels op elke stap. Vangt de fine-tuning-run die al twee weken aan het trainen is op een feature-tabel die na een pipeline-fout stopte met verversen, en daarom blijft het model achteruitgaan op het gedrag van vorige maand.

Waarde voor iedereen in de organisatie

Wat elke functie eruit haalt.

Voor finance leads

GPU-uren en Anyscale-kost per team, per workspace en per business unit, gekoppeld aan de workflow die elk model bedient. De AI-lijn op het budget verschuift van één Anyscale-factuur naar een getal dat naast de voorspellingen staat die in CRM, ERP en het warehouse gebruikt worden.

Voor operations

Ray Serve-endpoint-health, latency en kost per call, gekoppeld aan de interne app die het endpoint oproept. Laat het team het always-on endpoint stilleggen dat niemand oproept en het endpoint rightsizen waar elke retry-loop op aan het hameren is.

Je bestaande tools

Je data komt in een warehouse terecht. Je BI-tools lezen eruit.

Je houdt de rapporteringstool die je al hebt. Wij koppelen hem aan het warehouse waar je Anyscale-data staat.

Power BI Microsoft

Fabric Microsoft

Snowflake Data warehouse

BigQuery Google

Tableau Visualisatie

Excel Spreadsheets & draaitabellen

In drie stappen

Van Anyscale naar antwoorden in drie stappen.

Veilig koppelen

OAuth-authenticatie. Standaard read-only. Wij tekenen een DPA en je admin houdt de sleutels.

Landen in je warehouse

Data stroomt naar je warehouse op het schema dat jij kiest. Bijna real-time of 's nachts, aan jou. Jij bent eigenaar.

Rapportering, automatisatie, AI

We bouwen het eerste dashboard, de eerste workflow of AI-toepassing samen met jou, en geven de sleutels over. Of we blijven erbij voor doorlopende levering.

Twee manieren om met ons te werken

Kies het traject dat past bij jouw team.

Traject 01

Zelf doen

Wij zetten de basis op. Jouw team bouwt erop verder.

Anyscale-connector geconfigureerd en draaiend
Warehouse opgezet in jouw cloud-account
Propere toegang voor je Power BI-, Fabric- of Tableau-team
Documentatie over wat er in het datamodel zit
Sync-monitoring zodat je gewaarschuwd wordt voor rapporten stukgaan

Beste match Teams die al een BI-analist of data engineer in huis hebben en zelf willen bouwen.

Traject 02

Wij doen het voor je

Wij bouwen het geheel, van A tot Z.

Alles uit Zelf doen
Dashboards gebouwd op de vragen die je team effectief stelt
Automatisaties tussen je systemen
AI-workflows afgestemd op taken die je team dagelijks draait
Custom apps waar een dashboard niet volstaat
Doorlopende levering op een tempo dat past bij je team

Beste match Teams zonder BI- of dev-capaciteit in huis. Jij zegt wat je nodig hebt en wij leveren het.

Voor je een gesprek boekt

Veelgestelde vragen.

Wie is eigenaar van de data?

Jij. Ze komt in jouw warehouse terecht, op jouw cloud-account. Wij verkopen ze niet door en aggregeren ze niet. Stop je met ons, dan blijft het warehouse van jou en blijft het draaien.

Hoe vers is de data?

Bijna real-time voor de meeste operationele systemen. Voor zwaardere bronnen plannen we per uur of per nacht. Je kiest op basis van wat de rapporten nodig hebben.

Moet ik al een warehouse hebben?

Nee. Heb je er geen, dan helpen we je er een kiezen en zetten we het op als deel van de eerste levering. Gangbare startpunten zijn Snowflake, Microsoft Fabric of een kleine Postgres-start.

Wat is het verschil tussen Anyscale en het open-source Ray-project?

Ray is het open-source distributed compute framework: Python-API's plus de bibliotheken Ray Data, Ray Train, Ray Serve, Ray Tune en RLlib. Je kan Ray ook zelf draaien op je eigen Kubernetes of VM's. Anyscale is het bedrijf achter Ray en draait het managed Anyscale Platform: een multi-cloud runtime voor Ray met workspaces, jobs, services, observability, governance en priority-aware GPU-scheduling op AWS, GCP, Azure, CoreWeave en Nebius. Dezelfde Ray-code, minder cluster-beheerwerk.

Op welke clouds draait Anyscale?

Anyscale draait op AWS, GCP, Azure, CoreWeave en Nebius. Dezelfde Ray-code is portabel tussen die providers, en het platform ondersteunt multi-cloud GPU-pooling zodat een job kan bursten naar waar capaciteit zit. De cluster leeft in customer-hosted modus binnen je eigen cloud-account, wat de typische opstelling is voor teams die data en compute binnen hun eigen VPC willen houden.

Welke workloads draaien teams meestal op Anyscale?

Distributed modeltraining (Ray Train), batch-inference en multimodale dataprep (Ray Data), online inference (Ray Serve), hyperparameter-search (Ray Tune) en reinforcement learning inclusief RLHF post-training (RLlib en community-frameworks zoals SkyRL en veRL). Dezelfde cluster draagt in productie vaak meerdere van die workloads tegelijk, en daarom telt rapportering op workspace-niveau over kost en bezetting meer dan timing per job.

GDPR-conform

Data blijft in de EU

Jij bent eigenaar van het warehouse

Eerste oplevering live in vier tot zes weken.

We bekijken je Anyscale-opzet en de systemen eromheen. Samen kiezen we wat we als eerste bouwen.

Plan een gesprek Bekijk onze andere connectors