De techniek onder lokale AI.

Deze subpagina is voor ontwikkelaars, IT-beslissers en technisch geïnteresseerden. Hier staan de bouwstenen achter lokale AI: modellen, GPU's, inferentie, Whisper, RAG, dashboards, procesbeheer en hosting.

Zoekt u juist de korte commerciële uitleg? Ga terug naar Lokale AI voor MKB.

Een lokale AI-oplossing is geen model, maar een stack.

De betrouwbaarheid zit niet alleen in het taalmodel. Het gaat om de combinatie van hardware, drivers, inferentie-runtime, applicatielaag, vectorstore, logging, procesbeheer, security en beheerbaarheid.

OS

Ubuntu Server LTS (22.04 / 24.04)

Voor AI-werkbelasting is stabiliteit belangrijker dan het laatste snufje. Ubuntu LTS heeft de driver-ondersteuning en lange levensduur die past bij infrastructuur die jaren meegaat.

apt · systemdufw / nftablesunattended-upgrades
GPU-stack

NVIDIA driver + CUDA + cuDNN — gematcht

De meest voorkomende oorzaak van storingen bij lokale AI is een mismatch tussen driver, CUDA-versie en de versie die PyTorch, vLLM of llama.cpp verwacht. We stellen één geverifieerde combinatie vast en pinnen die.

Standaard zetten we nvidia-persistenced aan om driver-opstartlatentie bij inferentie-calls te voorkomen.

nvidia-driverCUDA 12.xcuDNNpersistence-mode
Inferentie

vLLM voor throughput, llama.cpp voor flexibiliteit

vLLM is geschikt voor veel parallelle requests, continuous batching en tensor-parallel over meerdere GPU's. llama.cpp is sterk voor GGUF-modellen, flexibele kwantisatie en kleinere servers.

vLLMllama.cppAWQ · GPTQ · GGUF
Modellen

Open modellen per taak gekozen

Voor Nederlandstalige documenten en vertaling werken Qwen, Mistral en Gemma vaak goed. De keuze hangt af van contextlengte, VRAM, gewenste latency en outputkwaliteit.

Voor spraak gebruiken we Whisper, waarbij regionale Nederlandse audio soms beter presteert op een ander model of fine-tune dan standaard benchmarks suggereren.

QwenMistralGemmaWhisper
Web-laag

nginx reverse proxy + Python/Node.js services

Inferentie-servers staan niet direct publiek. nginx regelt TLS, routing, buffering en streaming. Daarachter draaien FastAPI, Flask of Node.js services.

Waar publieke bereikbaarheid nodig is, gebruiken we liever tunnels of reverse proxies dan openstaande poorten.

nginxFastAPINode.jsSSE streaming
Beheer

systemd services met restart-policies

Elke component krijgt een eigen systemd-service met duidelijke dependencies, restart-condities en logging. Na een reboot komt de stack in de juiste volgorde terug.

systemd unitsjournalctlRestart=on-failure
Tuning

Kleine details maken groot verschil

PCIe-lanes controleren, GPU-klokken stabiliseren, batch-size afstemmen op werkelijk VRAM-gebruik, watchdogs zetten en hallucinatie-thresholds voor transcriptie bepalen. Dit zijn projectdetails die het verschil maken tussen demo en productie.

nvidia-smipcie gen checkbatch tuning

Hardware kiezen op taak, volume en latency.

Hardware is een middel, geen doel. Eerst bepalen we wat de AI moet doen, hoeveel gebruikers tegelijk actief zijn, hoe groot de context moet zijn en welke responstijd acceptabel is.

Niveau I

Instap

Eén specifieke taak, laag tot middelmatig volume: transcriptie, lokale chatbot voor klein team, document-samenvatting.
  • GPU1× 24 GB
  • Modeltot 13B Q4/Q6
  • Gebruikers1–3
  • PlatformWorkstation
Niveau III

Cluster

Meerdere nodes achter load-balancer. Redundantie, failover, horizontale schaalbaarheid en kritische throughput.
  • GPUdatacenter-class
  • Model70B+ multi-instance
  • Gebruikers20+ / HA
  • PlatformRack-cluster

Documentvragen vragen om retrieval, niet alleen een groter model.

Voor bedrijfskennis gebruiken we vaak RAG: documenten worden opgesplitst, ge-embed, geïndexeerd en bij een vraag worden relevante passages opgehaald. Het model antwoordt dan op basis van eigen bronnen in plaats van op algemene modelkennis.

01

Ingest

PDF, DOCX, TXT, EML en interne documentatie worden opgeschoond en in bruikbare stukken verdeeld.

02

Embeddings

Tekstblokken krijgen vectorrepresentaties die semantisch zoeken mogelijk maken, ook bij andere formuleringen.

03

Retrieval

Bij een vraag haalt de applicatie relevante passages op en geeft die als context aan het taalmodel.

04

Bronnen

Antwoorden kunnen verwijzen naar document, paragraaf of interne bron, zodat controle mogelijk blijft.

Technische keuzes uit echte trajecten.

Forensische audio-transcriptie — Nederlandse dialecten

● In productie

Een transcriptiedienst voor gevoelig audio-materiaal waar Nederlandse dialect- en accentherkenning cruciaal is. De pipeline draait volledig lokaal en verwerkt opnames in batch.

De modelkeuze was niet alleen benchmark-gedreven. Op regionale Nederlandse audio bleek een andere Whisper-variant in de praktijk beter. Fine-tuning en post-processing maakten het verschil.

PlatformUbuntu LTS
GPU24 GB klasse
ModelWhisper + tuning
Runtimefaster-whisper
Modeoffline batch

Bulk document-vertaling — meertalig naar Nederlands

● In productie

Een vertaaldienst die periodiek een netwerk-share controleert op nieuwe documenten. Niet-Nederlandse documenten worden automatisch vertaald en klaargezet.

Elk documenttype vraagt een andere extractie- en reconstructiestrategie. Juist die randzaken bepalen of een oplossing bruikbaar wordt voor eindgebruikers.

Formateneml/pdf/docx/txt/xlsx
Runtimellama.cpp / vLLM
Servicesystemd
Interfacedashboard

E-discovery assistent — RAG-chatbot op handleidingen

● In productie

Een RAG-gebaseerde chatbot die juridisch-technische eindgebruikers helpt met vragen over softwarehandleidingen, release-notes en interne werkinstructies.

Naast retrieval is de persona-laag belangrijk: antwoorden moeten aansluiten op het taalgebruik, de workflows en het kennisniveau van de organisatie.

TypeRAG + persona
VectorstoreChromaDB / alternatief
InterfaceWeb chat + API
Modeon-prem

Een AI-service zonder dashboard is lastig te beheren.

Bij elk traject hoort een custom dashboard voor wat in dat project relevant is: wachtrij, voortgang, foutmeldingen, uptime, GPU-belasting, opslag, latency, volumes en gebruikersacties.

A

Projectspecifiek

Een transcriptiepipeline heeft andere meters nodig dan een RAG-chatbot of vertaalservice.

B

Operationeel bruikbaar

Niet alleen grafieken, maar concrete informatie waarmee een gebruiker of beheerder iets kan doen.

C

Integraties

Bestaande tooling kan via API's worden meegenomen, zodat niet alles los naast elkaar draait.

D

Eigen omgeving

Het dashboard draait op uw infrastructuur of op private Gold IT-infrastructuur, niet als generieke SaaS.

Genoeg techniek?

De hoofdpage vat lokale AI samen voor managers en beslissers. Gebruik die pagina voor de businesscase, voordelen en concrete vervolgstap.

Terug naar Lokale AI voor MKB

Van AI-service naar beheersbare oplossing

Een AI-service zonder dashboard is lastig te beheren. Daarom bouwt Gold IT Services bij AI-projecten dashboards voor wachtrijen, foutmeldingen, uptime, GPU-belasting, latency, volumes en gebruikersacties.

Bekijk een live voorbeeld van een operationeel Gold IT Services dashboard.

Wilt u de technische haalbaarheid laten toetsen?

Mark
Mark
Gold IT Services • Linschoten
E-mail info@golditservices.nl
Telefoon 06 49 75 54 50
Locatie Linschoten, Utrecht
Reactie binnen één werkdag