Data Woordenboek

Vector database

Wat is een vector database?

Een vector database is een gespecialiseerde databank die vectoren opslaat en doorzoekt. Een vector is een rij getallen die de betekenis van een stuk tekst, beeld of geluid vastlegt. Die getallen worden geproduceerd door een embedding-model en functioneren als een vingerafdruk: gelijkaardige items liggen dicht bij elkaar, verschillende items ver uit elkaar.

Waar een klassieke SQL-databank zoekt op exacte waarden of patronen, zoekt een vector database op betekenis. Zoek je naar hond, dan krijg je ook resultaten over puppy, labrador of vierpoot, zelfs als die woorden niet letterlijk in de tekst staan. Dat heet semantisch zoeken.

Je kan een vector database vergelijken met een bibliotheek waar boeken niet op titel of auteur staan, maar op thema en sfeer. Twee boeken over opvoedkunde staan pal naast elkaar, ook al delen ze geen enkel woord in de titel.

Waarom bestaan vector databases?

Klassieke databanken zijn gebouwd voor exact matchen of bereiken: WHERE leeftijd > 30, WHERE naam = 'Jan'. Voor betekenisvolle zoekopdrachten schieten ze tekort. Een keyword-zoeker mist synoniemen, parafrases en context.

Met de opkomst van embeddings veranderde dat. Tekst, afbeeldingen en audio kunnen vertaald worden naar vectoren van honderden tot duizenden dimensies. Om in die ruimte snel de dichtstbijzijnde buren te vinden is gespecialiseerde indexering nodig. Een vector database doet precies dat.

De grote doorbraak kwam met RAG. Taalmodellen hebben een geheugen nodig dat verder reikt dan hun trainingsdata en hun beperkt context window. Een vector database vormt dat geheugen.

Hoe werkt een vector database?

Indexering
Bij het toevoegen van een document wordt de tekst eerst in kleinere stukken gesplitst. Elk stuk gaat door een embedding-model en wordt een vector. Die vector komt in de index, samen met metadata zoals bron, datum, auteur of rechten.

Zoeken
Bij een vraag wordt die vraag ook omgezet in een vector. De database zoekt de k dichtstbijzijnde vectoren, meestal met een approximate nearest neighbor-algoritme zoals HNSW, IVF of ScaNN. Dat is bewust niet exact, want perfect zoeken op miljoenen vectoren wordt snel te traag.

Filteren
Naast semantische gelijkenis kan je filteren op metadata, bijvoorbeeld enkel dit jaar, enkel deze klant of enkel publieke documenten. Goede vector databases combineren vector search en metadata-filtering in één query.

Hybride zoeken
Pure vector search mist soms exacte termen zoals artikelnummers of afkortingen. Hybride zoeken combineert vector-resultaten met een klassieke keyword-index zoals BM25 en levert daardoor vaak betrouwbaardere antwoorden.

Wanneer gebruik je een vector database?

RAG-chatbots op eigen documenten. De klassieke use case. Medewerkers of klanten stellen vragen, de chatbot haalt relevante fragmenten op uit jouw documentatie en genereert een antwoord met bronvermelding.
Semantische zoekmachines. Zoeken op bedoeling in plaats van op woord. Interessant voor kennisbanken, juridische dossiers of productcatalogi met weinig tekst per item.
Aanbevelingssystemen. Vind items die lijken op wat een gebruiker recent bekeek. Werkt voor producten, artikels, muziek en video.
Fraude- en anomaliedetectie. Nieuwe transacties vergelijken met een vectorprofiel van normaal gedrag en uitschieters flaggen voor onderzoek.
Duplicaatdetectie. Artikels, klantrecords of afbeeldingen matchen die bijna identiek zijn maar niet exact gelijk, bijvoorbeeld voor master data management.

Populaire vector databases

Azure AI Search
Microsoft's zoekdienst heeft intussen volwaardige vector search en hybride zoeken aan boord. Sterk geïntegreerd met Azure OpenAI en Microsoft Fabric, en de natuurlijke keuze in een Microsoft-stack.

Pinecone
Managed vector database, vaak genoemd in snel opgeleverde RAG-prototypes. Simpel in gebruik, maar propriëtair en niet goedkoop op schaal.

Qdrant en Weaviate
Open source alternatieven die je zelf kan hosten of als managed service afnemen. Populaire keuze voor teams die vendor lock-in willen vermijden.

pgvector
Extensie voor PostgreSQL. Handig wanneer je al een Postgres-databank draait en de operationele complexiteit beperkt wil houden. Goed voor kleinere indexen tot enkele miljoenen vectoren.

Milvus
Open source, sterk geschikt voor zeer grote volumes en multimediale data. Populair in onderzoeksomgevingen.

Valkuilen

Kwaliteit van de embeddings
De zoekkwaliteit is nooit beter dan je embedding-model. Een verouderd of anderstalig model lost de helft van de vragen niet goed op. Test met een representatieve set vragen in de taal van je gebruikers voor je in productie gaat.

Rechten en toegang
De resultaten van een vector search mogen nooit meer tonen dan de vragensteller zelf mag zien. Filters op rechten-metadata op het moment van zoeken zijn geen optie maar een vereiste, zeker in combinatie met row level security op de bron.

Versiebeheer van vectoren
Wanneer je van embedding-model wisselt, moet je alle bestaande vectoren opnieuw berekenen. Plan dat in voor elke grote upgrade, want halverwege overstappen levert gemengde resultaten op.

Laatst Bijgewerkt: July 3, 2026 Terug naar Woordenboek

Trefwoorden

vector database embeddings rag semantisch zoeken ai pinecone qdrant azure ai search weaviate llm generatieve ai pgvector

Vector database

Wat is een vector database?

Waarom bestaan vector databases?

Hoe werkt een vector database?

Wanneer gebruik je een vector database?

Populaire vector databases

Valkuilen

Trefwoorden

Gerelateerde Termen

Afwijkingsanalyse

Agent memory

Agent sandbox (AI)

Agent skill

Agentic AI

Uit onze blog.

Nieuwe Data Panda-connectors in juni 2026

Lakehouse of warehouse in Microsoft Fabric: welke kies je, en wanneer allebei?