Techniek achter lokale AI

/ Architectuur

Een lokale AI-oplossing is geen model, maar een stack.

De betrouwbaarheid zit niet alleen in het taalmodel. Het gaat om de combinatie van hardware, drivers, inferentie-runtime, applicatielaag, vectorstore, logging, procesbeheer, security en beheerbaarheid.

Ubuntu Server LTS (22.04 / 24.04)

Voor AI-werkbelasting is stabiliteit belangrijker dan het laatste snufje. Ubuntu LTS heeft de driver-ondersteuning en lange levensduur die past bij infrastructuur die jaren meegaat.

apt · systemdufw / nftablesunattended-upgrades

GPU-stack

NVIDIA driver + CUDA + cuDNN — gematcht

De meest voorkomende oorzaak van storingen bij lokale AI is een mismatch tussen driver, CUDA-versie en de versie die PyTorch, vLLM of llama.cpp verwacht. We stellen één geverifieerde combinatie vast en pinnen die.

Standaard zetten we nvidia-persistenced aan om driver-opstartlatentie bij inferentie-calls te voorkomen.

nvidia-driverCUDA 12.xcuDNNpersistence-mode

Inferentie

vLLM voor throughput, llama.cpp voor flexibiliteit

vLLM is geschikt voor veel parallelle requests, continuous batching en tensor-parallel over meerdere GPU's. llama.cpp is sterk voor GGUF-modellen, flexibele kwantisatie en kleinere servers.

vLLMllama.cppAWQ · GPTQ · GGUF

Modellen

Open modellen per taak gekozen

Voor Nederlandstalige documenten en vertaling werken Qwen, Mistral en Gemma vaak goed. De keuze hangt af van contextlengte, VRAM, gewenste latency en outputkwaliteit.

Voor spraak gebruiken we Whisper, waarbij regionale Nederlandse audio soms beter presteert op een ander model of fine-tune dan standaard benchmarks suggereren.

QwenMistralGemmaWhisper

Web-laag

nginx reverse proxy + Python/Node.js services

Inferentie-servers staan niet direct publiek. nginx regelt TLS, routing, buffering en streaming. Daarachter draaien FastAPI, Flask of Node.js services.

Waar publieke bereikbaarheid nodig is, gebruiken we liever tunnels of reverse proxies dan openstaande poorten.

nginxFastAPINode.jsSSE streaming

Beheer

systemd services met restart-policies

Elke component krijgt een eigen systemd-service met duidelijke dependencies, restart-condities en logging. Na een reboot komt de stack in de juiste volgorde terug.

systemd unitsjournalctlRestart=on-failure

Tuning

Kleine details maken groot verschil

PCIe-lanes controleren, GPU-klokken stabiliseren, batch-size afstemmen op werkelijk VRAM-gebruik, watchdogs zetten en hallucinatie-thresholds voor transcriptie bepalen. Dit zijn projectdetails die het verschil maken tussen demo en productie.

nvidia-smipcie gen checkbatch tuning

/ Hardware

Hardware kiezen op taak, volume en latency.

Hardware is een middel, geen doel. Eerst bepalen we wat de AI moet doen, hoeveel gebruikers tegelijk actief zijn, hoe groot de context moet zijn en welke responstijd acceptabel is.

Niveau I

Instap

Eén specifieke taak, laag tot middelmatig volume: transcriptie, lokale chatbot voor klein team, document-samenvatting.

GPU1× 24 GB
Modeltot 13B Q4/Q6
Gebruikers1–3
PlatformWorkstation

Niveau II

Productie

Meerdere taken, dagelijks gebruik en meerdere gebruikers tegelijk. Sweet spot voor veel organisaties.

GPU2–4× 24/48 GB
VRAM48–192 GB totaal
Modeltot 70B quantized
Gebruikers5–20

Niveau III

Cluster

Meerdere nodes achter load-balancer. Redundantie, failover, horizontale schaalbaarheid en kritische throughput.

GPUdatacenter-class
Model70B+ multi-instance
Gebruikers20+ / HA
PlatformRack-cluster

/ RAG

Documentvragen vragen om retrieval, niet alleen een groter model.

Voor bedrijfskennis gebruiken we vaak RAG: documenten worden opgesplitst, ge-embed, geïndexeerd en bij een vraag worden relevante passages opgehaald. Het model antwoordt dan op basis van eigen bronnen in plaats van op algemene modelkennis.

Ingest

PDF, DOCX, TXT, EML en interne documentatie worden opgeschoond en in bruikbare stukken verdeeld.

Embeddings

Tekstblokken krijgen vectorrepresentaties die semantisch zoeken mogelijk maken, ook bij andere formuleringen.

Retrieval

Bij een vraag haalt de applicatie relevante passages op en geeft die als context aan het taalmodel.

Bronnen

Antwoorden kunnen verwijzen naar document, paragraaf of interne bron, zodat controle mogelijk blijft.

/ Projecten

Technische keuzes uit echte trajecten.

Forensische audio-transcriptie — Nederlandse dialecten

● In productie

Een transcriptiedienst voor gevoelig audio-materiaal waar Nederlandse dialect- en accentherkenning cruciaal is. De pipeline draait volledig lokaal en verwerkt opnames in batch.

De modelkeuze was niet alleen benchmark-gedreven. Op regionale Nederlandse audio bleek een andere Whisper-variant in de praktijk beter. Fine-tuning en post-processing maakten het verschil.

PlatformUbuntu LTS

GPU24 GB klasse

ModelWhisper + tuning

Runtimefaster-whisper

Modeoffline batch

Bulk document-vertaling — meertalig naar Nederlands

● In productie

Een vertaaldienst die periodiek een netwerk-share controleert op nieuwe documenten. Niet-Nederlandse documenten worden automatisch vertaald en klaargezet.

Elk documenttype vraagt een andere extractie- en reconstructiestrategie. Juist die randzaken bepalen of een oplossing bruikbaar wordt voor eindgebruikers.

Formateneml/pdf/docx/txt/xlsx

Runtimellama.cpp / vLLM

Servicesystemd

Interfacedashboard

E-discovery assistent — RAG-chatbot op handleidingen

● In productie

Een RAG-gebaseerde chatbot die juridisch-technische eindgebruikers helpt met vragen over softwarehandleidingen, release-notes en interne werkinstructies.

Naast retrieval is de persona-laag belangrijk: antwoorden moeten aansluiten op het taalgebruik, de workflows en het kennisniveau van de organisatie.

TypeRAG + persona

VectorstoreChromaDB / alternatief

InterfaceWeb chat + API

Modeon-prem

/ Dashboards

Een AI-service zonder dashboard is lastig te beheren.

Bij elk traject hoort een custom dashboard voor wat in dat project relevant is: wachtrij, voortgang, foutmeldingen, uptime, GPU-belasting, opslag, latency, volumes en gebruikersacties.

Bekijk een live voorbeeld van een Gold IT Dashboard →

Projectspecifiek

Een transcriptiepipeline heeft andere meters nodig dan een RAG-chatbot of vertaalservice.

Operationeel bruikbaar

Niet alleen grafieken, maar concrete informatie waarmee een gebruiker of beheerder iets kan doen.

Integraties

Bestaande tooling kan via API's worden meegenomen, zodat niet alles los naast elkaar draait.

Eigen omgeving

Het dashboard draait op uw infrastructuur of op private Gold IT-infrastructuur, niet als generieke SaaS.

/ Terug naar overzicht

Genoeg techniek?

De hoofdpage vat lokale AI samen voor managers en beslissers. Gebruik die pagina voor de businesscase, voordelen en concrete vervolgstap.

Terug naar Lokale AI voor MKB →

Van AI-service naar beheersbare oplossing

Een AI-service zonder dashboard is lastig te beheren. Daarom bouwt Gold IT Services bij AI-projecten dashboards voor wachtrijen, foutmeldingen, uptime, GPU-belasting, latency, volumes en gebruikersacties.

Bekijk een live voorbeeld van een operationeel Gold IT Services dashboard.

De techniek onder lokale AI.

Een lokale AI-oplossing is geen model, maar een stack.

Ubuntu Server LTS (22.04 / 24.04)

NVIDIA driver + CUDA + cuDNN — gematcht

vLLM voor throughput, llama.cpp voor flexibiliteit

Open modellen per taak gekozen

nginx reverse proxy + Python/Node.js services

systemd services met restart-policies

Kleine details maken groot verschil

Hardware kiezen op taak, volume en latency.

Instap

Productie

Cluster

Documentvragen vragen om retrieval, niet alleen een groter model.

Ingest

Embeddings

Retrieval

Bronnen

Technische keuzes uit echte trajecten.

Forensische audio-transcriptie — Nederlandse dialecten

Bulk document-vertaling — meertalig naar Nederlands

E-discovery assistent — RAG-chatbot op handleidingen

Een AI-service zonder dashboard is lastig te beheren.

Projectspecifiek

Operationeel bruikbaar

Integraties

Eigen omgeving

Genoeg techniek?

Van AI-service naar beheersbare oplossing

Wilt u de technische haalbaarheid laten toetsen?