Over Groq
Inference op een chip die enkel voor inference gebouwd is.
Groq werd in 2016 opgericht in Mountain View, Californië, door Jonathan Ross, die bij Google de oorspronkelijke Tensor Processing Unit ontwierp voor hij het bedrijf startte. De architectuur begon haar leven als de Tensor Streaming Processor en werd omgedoopt tot LPU (Language Processing Unit) toen grote taalmodellen de workload overnamen. De hoofdzetel zit in Mountain View, met kantoren in San Jose, Liberty Lake, Toronto en Londen. Voor de duidelijkheid: Groq, het inference-bedrijf, is niet hetzelfde als Grok, de chatbot van xAI; de namen klinken gelijk, de producten staan los van elkaar.
Het product is GroqCloud, een pay-per-token-API die open-weight modellen host op LPU-hardware in plaats van op GPU's. De huidige line-up telt Llama 3.1 8B Instant aan ongeveer 560 tokens per seconde, Llama 3.3 70B Versatile aan ongeveer 280, Llama 4 Scout 17B in preview aan ongeveer 750, GPT-OSS 120B en 20B van OpenAI aan respectievelijk 500 en 1000, Qwen3-32B aan ongeveer 400, plus Whisper Large V3 en V3 Turbo voor spraakherkenning. Groq Compound bundelt een model met ingebouwde tools (web search, code execution) aan ongeveer 450 tokens per seconde voor agent-workloads. De LPU is single-architecture, deterministisch en uitsluitend voor inference gebouwd, en daar komen de doorgaans geciteerde tokens-per-seconde-cijfers vandaan. Het bedrijf licentieerde zijn inference-technologie eind 2025 aan Nvidia, waarbij Jonathan Ross overstapte om de inference-tak van Nvidia te leiden.