Inleiding: Waarom DeepSeek Lokaal Draaien?
Kunstmatige intelligentie wordt steeds krachtiger, en met modellen als DeepSeek-V3.2 en DeepSeek R1 heb je toegang tot AI die op het niveau van GPT-5 presteert. Maar wat als je deze kracht lokaal op je eigen computer wilt draaien? Dankzij de open-source MIT-licentie van DeepSeek en tools als Ollama is dat vandaag de dag volledig mogelijk.
Er zijn tal van redenen waarom je DeepSeek lokaal zou willen draaien. Misschien maak je je zorgen over privacy en wil je niet dat je gegevens naar externe servers worden gestuurd. Misschien wil je onbeperkt gebruik zonder abonnementskosten. Of misschien werk je in een omgeving zonder betrouwbare internetverbinding en heb je een offline AI-assistent nodig.
In deze complete gids lopen we stap voor stap door het hele proces: van het begrijpen van de hardwarevereisten tot de daadwerkelijke installatie op Windows, Mac en Linux. We behandelen ook prestatie-optimalisatie en de voor- en nadelen van lokale uitvoering.
Wil je eerst meer weten over wat DeepSeek precies is? Lees dan onze complete gids over DeepSeek.
Wat is Ollama?
Ollama is een open-source tool die het ongelooflijk eenvoudig maakt om grote taalmodellen (LLM’s) lokaal op je computer te draaien. Beschouw het als een soort Docker, maar dan specifiek voor AI-modellen. Met slechts een paar commando’s download en draai je modellen als DeepSeek, Llama, Mistral en vele anderen.
Belangrijkste kenmerken van Ollama
- Eenvoudige installatie: Eén commando om te installeren, één commando om een model te starten
- Modelbibliotheek: Toegang tot honderden voorgetrainde modellen
- API-compatibel: Biedt een lokale API die compatibel is met het OpenAI-formaat
- Cross-platform: Beschikbaar voor Windows, macOS en Linux
- Efficiënt geheugenbeheer: Optimaliseert automatisch het geheugengebruik
- Actieve community: Regelmatige updates en uitgebreide ondersteuning
Ollama abstraheert de technische complexiteit weg. Je hoeft niet zelf te worstelen met Python-omgevingen, CUDA-drivers of modelquantisatie. Alles wordt automatisch afgehandeld.
Hardwarevereisten: Wat Heb Je Nodig?
De hardwarevereisten voor het lokaal draaien van DeepSeek hangen sterk af van welke modelvariant je wilt gebruiken. Grotere modellen leveren betere resultaten, maar vereisen aanzienlijk meer computerkracht.
GPU VRAM-vereisten per Modelgrootte
| Model | Parameters | Minimaal VRAM | Aanbevolen VRAM | Geschikt voor |
|---|---|---|---|---|
| DeepSeek 1.5B | 1,5 miljard | 4 GB | 6 GB | Eenvoudige taken, experimenteren |
| DeepSeek 7B | 7 miljard | 8 GB | 10 GB | Dagelijks gebruik, codering |
| DeepSeek 14B | 14 miljard | 12 GB | 16 GB | Professioneel gebruik |
| DeepSeek 33B | 33 miljard | 24 GB | 32 GB | Geavanceerde taken |
| DeepSeek 67B | 67 miljard | 48 GB | 64 GB | Maximale prestaties |
Aanbevolen GPU’s per Budget
| Budget | GPU | VRAM | Geschikt voor |
|---|---|---|---|
| Instap (€200-400) | NVIDIA RTX 4060 | 8 GB | 7B modellen |
| Midden (€400-800) | NVIDIA RTX 4070 Ti | 12 GB | 14B modellen |
| Hoog (€800-1500) | NVIDIA RTX 4090 | 24 GB | 33B modellen |
| Professioneel (€1500+) | NVIDIA RTX A6000 | 48 GB | 67B modellen |
| Apple Silicon | M3 Pro/Max/Ultra | 18-192 GB unified | Afhankelijk van RAM |
Overige Systeemvereisten
Naast een geschikte GPU heb je ook het volgende nodig:
- RAM: Minimaal 16 GB, aanbevolen 32 GB of meer
- Opslag: Minimaal 20 GB vrije ruimte per model (grotere modellen vereisen meer)
- Besturingssysteem: Windows 10/11, macOS 12+, of een moderne Linux-distributie
- CPU: Moderne multi-core processor (Intel i5/i7/i9 of AMD Ryzen 5/7/9)
Een belangrijke kanttekening bij Apple Silicon Macs: deze gebruiken unified memory, wat betekent dat het systeemgeheugen (RAM) ook als VRAM fungeert. Een MacBook Pro met 36 GB RAM kan daardoor modellen draaien die normaal gesproken een GPU met 36 GB VRAM zouden vereisen. Dit maakt Apple Silicon bijzonder aantrekkelijk voor het lokaal draaien van AI-modellen.
Stap-voor-stap Installatie
Installatie op Windows
De installatie van Ollama op Windows is bijzonder eenvoudig geworden. Volg deze stappen:
Stap 1: Download Ollama
Ga naar ollama.com en download de Windows-installer. Het installatiebestand is ongeveer 200 MB groot.
Stap 2: Voer de installer uit
Dubbelklik op het gedownloade bestand en volg de installatie-wizard. Accepteer de standaardinstellingen tenzij je specifieke wensen hebt voor de installatielocatie.
Stap 3: Controleer de installatie
Open een Command Prompt of PowerShell-venster en typ:
ollama --version
Als je een versienummer ziet, is de installatie geslaagd.
Stap 4: Download en start DeepSeek
Typ het volgende commando om het DeepSeek-model te downloaden en direct te starten:
ollama run deepseek-v3
De eerste keer zal Ollama het model downloaden. Dit kan even duren afhankelijk van je internetsnelheid en het gekozen model.
Installatie op macOS
Stap 1: Download of gebruik Homebrew
Je kunt Ollama op twee manieren installeren op macOS:
Via de website:
- Ga naar ollama.com en download de macOS-versie
Via Homebrew (aanbevolen voor ontwikkelaars):
brew install ollama
Stap 2: Start de Ollama-service
Na installatie start Ollama automatisch als achtergrondservice. Je kunt dit verifiëren met:
ollama --version
Stap 3: Download DeepSeek
ollama run deepseek-v3
Op Apple Silicon Macs zul je merken dat de modellen direct profiteren van de snelle unified memory, wat resulteert in uitstekende prestaties.
Installatie op Linux
Stap 1: Installeer Ollama via het installatiescript
De snelste manier om Ollama op Linux te installeren is via het officiële installatiescript:
curl -fsSL https://ollama.com/install.sh | sh
Stap 2: Controleer NVIDIA-drivers (indien van toepassing)
Als je een NVIDIA GPU hebt, zorg ervoor dat de juiste drivers zijn geïnstalleerd:
nvidia-smi
Dit commando moet je GPU-informatie tonen, inclusief de CUDA-versie.
Stap 3: Start Ollama als service
Op de meeste Linux-distributies wordt Ollama als systemd-service geïnstalleerd:
sudo systemctl start ollama
sudo systemctl enable ollama
Stap 4: Download en draai DeepSeek
ollama run deepseek-v3
Beschikbare DeepSeek-modellen in Ollama
Na installatie heb je toegang tot verschillende DeepSeek-modelvarianten:
# DeepSeek V3 (standaard, aanbevolen)
ollama run deepseek-v3
# DeepSeek R1 (reasoning model, sterk in logisch denken)
ollama run deepseek-r1
# Specifieke grootte selecteren
ollama run deepseek-v3:7b
ollama run deepseek-v3:14b
ollama run deepseek-v3:33b
# Lijst van beschikbare modellen bekijken
ollama list
Prestatie-optimalisatie
Quantisatie Begrijpen
Ollama gebruikt standaard gequantiseerde versies van modellen. Quantisatie reduceert de precisie van de modelgewichten (bijvoorbeeld van 16-bit naar 4-bit), waardoor het model kleiner wordt en minder VRAM nodig heeft, met slechts een gering verlies aan kwaliteit.
| Quantisatie | Bestandsgrootte (7B) | VRAM-gebruik | Kwaliteitsverlies |
|---|---|---|---|
| Q4_0 | ~4 GB | ~5 GB | Merkbaar bij complexe taken |
| Q4_K_M | ~4,5 GB | ~5,5 GB | Gering, goede balans |
| Q5_K_M | ~5 GB | ~6,5 GB | Minimaal |
| Q8_0 | ~7 GB | ~9 GB | Nauwelijks merkbaar |
| FP16 | ~14 GB | ~16 GB | Geen (originele kwaliteit) |
Tips voor Betere Prestaties
1. Sluit onnodige applicaties
Elke applicatie die GPU-geheugen gebruikt, gaat ten koste van het geheugen dat beschikbaar is voor je AI-model. Sluit grafisch intensieve programma’s, games en andere GPU-gebruikende software.
2. Gebruik de juiste modelgrootte
Kies een modelgrootte die past bij je hardware. Een kleiner model dat soepel draait is beter dan een groot model dat constant hapert. Begin met het 7B-model en schaal op als je hardware het toelaat.
3. Pas de contextlengte aan
Standaard reserveert Ollama geheugen voor een bepaalde contextlengte. Als je kortere gesprekken voert, kun je geheugen besparen door de contextlengte te beperken:
ollama run deepseek-v3 --num-ctx 2048
4. Gebruik GPU-offloading optimaal
Als je VRAM beperkt is, kan Ollama een deel van het model in het systeemgeheugen laden. Dit is langzamer maar maakt het mogelijk om grotere modellen te draaien:
OLLAMA_NUM_GPU=20 ollama run deepseek-v3:14b
Dit laadt 20 lagen op de GPU en de rest in het RAM.
5. Overweeg een SSD voor modelopslag
Modellen worden bij elke start geladen vanuit opslag. Een snelle NVMe SSD verkort de laadtijd aanzienlijk ten opzichte van een traditionele harde schijf.
Voordelen van Lokale Uitvoering
Volledige Privacy
Het grootste voordeel van het lokaal draaien van DeepSeek is ongetwijfeld de absolute privacy. Geen enkele prompt, geen enkel antwoord verlaat ooit je computer. Dit is essentieel voor:
- Bedrijven die met gevoelige bedrijfsinformatie werken
- Ontwikkelaars die propriëtaire code willen analyseren
- Zorginstellingen die met patiëntgegevens werken
- Juridische professionals die vertrouwelijke documenten verwerken
- Iedereen die waarde hecht aan digitale privacy
Lees meer over de privacyaspecten van DeepSeek in ons artikel Is DeepSeek veilig?
Geen Kosten na Aanschaf
Zodra je de hardware hebt, zijn er geen verdere kosten verbonden aan het gebruik van DeepSeek via Ollama. Geen abonnementen, geen tokenlimietn, geen verborgen kosten. Je kunt het model dag en nacht gebruiken zonder dat er een factuur volgt. Vergelijk dit met cloud-API’s waar je betaalt per token, en de besparing wordt al snel significant bij intensief gebruik.
Geen Internetverbinding Nodig
Na het downloaden van het model heb je geen internetverbinding meer nodig. Dit maakt lokale DeepSeek ideaal voor:
- Werken in het vliegtuig of op afgelegen locaties
- Omgevingen met beperkte of onbetrouwbare internetverbindingen
- Air-gapped beveiligingsomgevingen
- Situaties waarin lage latentie cruciaal is
Volledige Controle en Aanpasbaarheid
Met een lokale installatie heb je volledige controle over:
- Systeemprompts: Definieer exact hoe het model zich gedraagt
- Temperatuur en parameters: Fijnafstelling van de creativiteit en nauwkeurigheid
- Modelversie: Kies precies welke versie je wilt gebruiken
- Beschikbaarheid: Geen afhankelijkheid van externe servers of onderhoudsmomenten
- Integratie: Koppel het model aan je eigen applicaties via de lokale API
Lagere Latentie
Bij een krachtige lokale GPU kan de responstijd lager zijn dan bij cloud-gebaseerde diensten. Er is geen netwerklatentie, geen wachtrij, en geen throttling. Vooral voor real-time toepassingen en interactieve workflows is dit een groot voordeel.
Nadelen en Beperkingen
Het is eerlijk om ook de nadelen te benoemen van het lokaal draaien van DeepSeek:
Beperkte Modelgrootte
Het volledige DeepSeek-V3.2 model zoals dat online beschikbaar is op deepseek.com bevat honderden miljarden parameters. De lokale versies die via Ollama beschikbaar zijn, zijn kleiner en daarmee minder krachtig. Voor de meeste dagelijkse taken is dit geen probleem, maar voor de meest complexe taken zul je een verschil merken.
Hardware-investering
Een geschikte GPU is niet goedkoop. Hoewel je op termijn bespaart op abonnementskosten, is de initiële investering aanzienlijk. Een NVIDIA RTX 4090 kost bijvoorbeeld rond de €1.800.
Geen Automatische Updates
Bij cloud-diensten profiteer je automatisch van modelverbeteringen. Bij een lokale installatie moet je zelf nieuwe modelversies downloaden en installeren.
Energieverbruik
Het draaien van een GPU op volle kracht verbruikt aanzienlijke hoeveelheden elektriciteit. Een RTX 4090 kan tot 450 Watt verbruiken onder belasting. Op jaarbasis kan dit oplopen tot honderden euro’s aan stroomkosten.
Geavanceerd Gebruik: De Ollama API
Ollama biedt een lokale REST API die compatibel is met het OpenAI API-formaat. Dit maakt het eenvoudig om DeepSeek te integreren in je eigen applicaties.
Basis API-gebruik
Na het starten van een model draait Ollama een API-server op poort 11434:
# Chat completion
curl http://localhost:11434/api/chat -d '{
"model": "deepseek-v3",
"messages": [
{"role": "user", "content": "Leg quantum computing uit in eenvoudige termen"}
]
}'
Integratie met Python
import requests
response = requests.post('http://localhost:11434/api/chat', json={
'model': 'deepseek-v3',
'messages': [
{'role': 'user', 'content': 'Schrijf een Python-functie voor een bubblesort algoritme'}
],
'stream': False
})
print(response.json()['message']['content'])
Wil je meer weten over het werken met de DeepSeek API? Bekijk dan onze uitgebreide DeepSeek API-gids voor ontwikkelaars.
Veelgemaakte Fouten en Oplossingen
“Out of Memory” Foutmelding
Dit is de meest voorkomende fout en betekent dat je GPU niet genoeg VRAM heeft. Oplossingen:
- Kies een kleiner model (bijv. 7B in plaats van 14B)
- Gebruik een sterkere quantisatie (Q4 in plaats van Q8)
- Verklein de contextlengte
- Sluit andere GPU-gebruikende applicaties
Model Laadt Erg Langzaam
Als het model traag laadt, controleer dan:
- Of het model op een SSD staat (niet op een HDD)
- Of er voldoende vrij RAM is
- Of er geen andere zware processen draaien
Slechte Tekstkwaliteit
Als de gegenereerde tekst onder de maat is:
- Probeer een groter model als je hardware het toelaat
- Gebruik een minder agressieve quantisatie
- Experimenteer met de temperatuurinstelling
- Controleer of je systeemprompt duidelijk genoeg is
Conclusie: Is Lokaal Draaien Iets voor Jou?
Het lokaal draaien van DeepSeek met Ollama is een fantastische optie voor iedereen die waarde hecht aan privacy, controle en onbeperkt gebruik. Met de juiste hardware biedt het een ervaring die de cloud-versies benadert, terwijl je volledige controle houdt over je gegevens.
Voor de gemiddelde gebruiker die geen specifieke privacyvereisten heeft en gewoon snel aan de slag wil, blijft de online versie op deepseek.com of onze gratis DeepSeek chat de eenvoudigste optie. Maar voor ontwikkelaars, bedrijven en privacybewuste gebruikers is Ollama een absolute aanrader.
De drempel om te beginnen is lager dan je denkt. Met een moderne gaming-PC kun je vandaag nog aan de slag met DeepSeek 7B, en de resultaten zullen je verbazen.
Probeer DeepSeek Nu
Wil je DeepSeek eerst uitproberen voordat je investeert in lokale hardware? Gebruik dan onze gratis DeepSeek chat om direct aan de slag te gaan. Zo kun je zelf ervaren wat DeepSeek te bieden heeft voordat je besluit om het lokaal te gaan draaien.
Bekijk ook onze andere artikelen: