DeepSeek Lokaal Draaien met Ollama: Complete Gids

Inleiding: Waarom DeepSeek Lokaal Draaien?

Kunstmatige intelligentie wordt steeds krachtiger, en met modellen als DeepSeek-V3.2 en DeepSeek R1 heb je toegang tot AI die op het niveau van GPT-5 presteert. Maar wat als je deze kracht lokaal op je eigen computer wilt draaien? Dankzij de open-source MIT-licentie van DeepSeek en tools als Ollama is dat vandaag de dag volledig mogelijk.

Er zijn tal van redenen waarom je DeepSeek lokaal zou willen draaien. Misschien maak je je zorgen over privacy en wil je niet dat je gegevens naar externe servers worden gestuurd. Misschien wil je onbeperkt gebruik zonder abonnementskosten. Of misschien werk je in een omgeving zonder betrouwbare internetverbinding en heb je een offline AI-assistent nodig.

In deze complete gids lopen we stap voor stap door het hele proces: van het begrijpen van de hardwarevereisten tot de daadwerkelijke installatie op Windows, Mac en Linux. We behandelen ook prestatie-optimalisatie en de voor- en nadelen van lokale uitvoering.

Wil je eerst meer weten over wat DeepSeek precies is? Lees dan onze complete gids over DeepSeek.

Wat is Ollama?

Ollama is een open-source tool die het ongelooflijk eenvoudig maakt om grote taalmodellen (LLM’s) lokaal op je computer te draaien. Beschouw het als een soort Docker, maar dan specifiek voor AI-modellen. Met slechts een paar commando’s download en draai je modellen als DeepSeek, Llama, Mistral en vele anderen.

Belangrijkste kenmerken van Ollama

  • Eenvoudige installatie: Eén commando om te installeren, één commando om een model te starten
  • Modelbibliotheek: Toegang tot honderden voorgetrainde modellen
  • API-compatibel: Biedt een lokale API die compatibel is met het OpenAI-formaat
  • Cross-platform: Beschikbaar voor Windows, macOS en Linux
  • Efficiënt geheugenbeheer: Optimaliseert automatisch het geheugengebruik
  • Actieve community: Regelmatige updates en uitgebreide ondersteuning

Ollama abstraheert de technische complexiteit weg. Je hoeft niet zelf te worstelen met Python-omgevingen, CUDA-drivers of modelquantisatie. Alles wordt automatisch afgehandeld.

Hardwarevereisten: Wat Heb Je Nodig?

De hardwarevereisten voor het lokaal draaien van DeepSeek hangen sterk af van welke modelvariant je wilt gebruiken. Grotere modellen leveren betere resultaten, maar vereisen aanzienlijk meer computerkracht.

GPU VRAM-vereisten per Modelgrootte

ModelParametersMinimaal VRAMAanbevolen VRAMGeschikt voor
DeepSeek 1.5B1,5 miljard4 GB6 GBEenvoudige taken, experimenteren
DeepSeek 7B7 miljard8 GB10 GBDagelijks gebruik, codering
DeepSeek 14B14 miljard12 GB16 GBProfessioneel gebruik
DeepSeek 33B33 miljard24 GB32 GBGeavanceerde taken
DeepSeek 67B67 miljard48 GB64 GBMaximale prestaties

Aanbevolen GPU’s per Budget

BudgetGPUVRAMGeschikt voor
Instap (€200-400)NVIDIA RTX 40608 GB7B modellen
Midden (€400-800)NVIDIA RTX 4070 Ti12 GB14B modellen
Hoog (€800-1500)NVIDIA RTX 409024 GB33B modellen
Professioneel (€1500+)NVIDIA RTX A600048 GB67B modellen
Apple SiliconM3 Pro/Max/Ultra18-192 GB unifiedAfhankelijk van RAM

Overige Systeemvereisten

Naast een geschikte GPU heb je ook het volgende nodig:

  • RAM: Minimaal 16 GB, aanbevolen 32 GB of meer
  • Opslag: Minimaal 20 GB vrije ruimte per model (grotere modellen vereisen meer)
  • Besturingssysteem: Windows 10/11, macOS 12+, of een moderne Linux-distributie
  • CPU: Moderne multi-core processor (Intel i5/i7/i9 of AMD Ryzen 5/7/9)

Een belangrijke kanttekening bij Apple Silicon Macs: deze gebruiken unified memory, wat betekent dat het systeemgeheugen (RAM) ook als VRAM fungeert. Een MacBook Pro met 36 GB RAM kan daardoor modellen draaien die normaal gesproken een GPU met 36 GB VRAM zouden vereisen. Dit maakt Apple Silicon bijzonder aantrekkelijk voor het lokaal draaien van AI-modellen.

Stap-voor-stap Installatie

Installatie op Windows

De installatie van Ollama op Windows is bijzonder eenvoudig geworden. Volg deze stappen:

Stap 1: Download Ollama

Ga naar ollama.com en download de Windows-installer. Het installatiebestand is ongeveer 200 MB groot.

Stap 2: Voer de installer uit

Dubbelklik op het gedownloade bestand en volg de installatie-wizard. Accepteer de standaardinstellingen tenzij je specifieke wensen hebt voor de installatielocatie.

Stap 3: Controleer de installatie

Open een Command Prompt of PowerShell-venster en typ:

ollama --version

Als je een versienummer ziet, is de installatie geslaagd.

Stap 4: Download en start DeepSeek

Typ het volgende commando om het DeepSeek-model te downloaden en direct te starten:

ollama run deepseek-v3

De eerste keer zal Ollama het model downloaden. Dit kan even duren afhankelijk van je internetsnelheid en het gekozen model.

Installatie op macOS

Stap 1: Download of gebruik Homebrew

Je kunt Ollama op twee manieren installeren op macOS:

Via de website:

Via Homebrew (aanbevolen voor ontwikkelaars):

brew install ollama

Stap 2: Start de Ollama-service

Na installatie start Ollama automatisch als achtergrondservice. Je kunt dit verifiëren met:

ollama --version

Stap 3: Download DeepSeek

ollama run deepseek-v3

Op Apple Silicon Macs zul je merken dat de modellen direct profiteren van de snelle unified memory, wat resulteert in uitstekende prestaties.

Installatie op Linux

Stap 1: Installeer Ollama via het installatiescript

De snelste manier om Ollama op Linux te installeren is via het officiële installatiescript:

curl -fsSL https://ollama.com/install.sh | sh

Stap 2: Controleer NVIDIA-drivers (indien van toepassing)

Als je een NVIDIA GPU hebt, zorg ervoor dat de juiste drivers zijn geïnstalleerd:

nvidia-smi

Dit commando moet je GPU-informatie tonen, inclusief de CUDA-versie.

Stap 3: Start Ollama als service

Op de meeste Linux-distributies wordt Ollama als systemd-service geïnstalleerd:

sudo systemctl start ollama
sudo systemctl enable ollama

Stap 4: Download en draai DeepSeek

ollama run deepseek-v3

Beschikbare DeepSeek-modellen in Ollama

Na installatie heb je toegang tot verschillende DeepSeek-modelvarianten:

# DeepSeek V3 (standaard, aanbevolen)
ollama run deepseek-v3

# DeepSeek R1 (reasoning model, sterk in logisch denken)
ollama run deepseek-r1

# Specifieke grootte selecteren
ollama run deepseek-v3:7b
ollama run deepseek-v3:14b
ollama run deepseek-v3:33b

# Lijst van beschikbare modellen bekijken
ollama list

Prestatie-optimalisatie

Quantisatie Begrijpen

Ollama gebruikt standaard gequantiseerde versies van modellen. Quantisatie reduceert de precisie van de modelgewichten (bijvoorbeeld van 16-bit naar 4-bit), waardoor het model kleiner wordt en minder VRAM nodig heeft, met slechts een gering verlies aan kwaliteit.

QuantisatieBestandsgrootte (7B)VRAM-gebruikKwaliteitsverlies
Q4_0~4 GB~5 GBMerkbaar bij complexe taken
Q4_K_M~4,5 GB~5,5 GBGering, goede balans
Q5_K_M~5 GB~6,5 GBMinimaal
Q8_0~7 GB~9 GBNauwelijks merkbaar
FP16~14 GB~16 GBGeen (originele kwaliteit)

Tips voor Betere Prestaties

1. Sluit onnodige applicaties

Elke applicatie die GPU-geheugen gebruikt, gaat ten koste van het geheugen dat beschikbaar is voor je AI-model. Sluit grafisch intensieve programma’s, games en andere GPU-gebruikende software.

2. Gebruik de juiste modelgrootte

Kies een modelgrootte die past bij je hardware. Een kleiner model dat soepel draait is beter dan een groot model dat constant hapert. Begin met het 7B-model en schaal op als je hardware het toelaat.

3. Pas de contextlengte aan

Standaard reserveert Ollama geheugen voor een bepaalde contextlengte. Als je kortere gesprekken voert, kun je geheugen besparen door de contextlengte te beperken:

ollama run deepseek-v3 --num-ctx 2048

4. Gebruik GPU-offloading optimaal

Als je VRAM beperkt is, kan Ollama een deel van het model in het systeemgeheugen laden. Dit is langzamer maar maakt het mogelijk om grotere modellen te draaien:

OLLAMA_NUM_GPU=20 ollama run deepseek-v3:14b

Dit laadt 20 lagen op de GPU en de rest in het RAM.

5. Overweeg een SSD voor modelopslag

Modellen worden bij elke start geladen vanuit opslag. Een snelle NVMe SSD verkort de laadtijd aanzienlijk ten opzichte van een traditionele harde schijf.

Voordelen van Lokale Uitvoering

Volledige Privacy

Het grootste voordeel van het lokaal draaien van DeepSeek is ongetwijfeld de absolute privacy. Geen enkele prompt, geen enkel antwoord verlaat ooit je computer. Dit is essentieel voor:

  • Bedrijven die met gevoelige bedrijfsinformatie werken
  • Ontwikkelaars die propriëtaire code willen analyseren
  • Zorginstellingen die met patiëntgegevens werken
  • Juridische professionals die vertrouwelijke documenten verwerken
  • Iedereen die waarde hecht aan digitale privacy

Lees meer over de privacyaspecten van DeepSeek in ons artikel Is DeepSeek veilig?

Geen Kosten na Aanschaf

Zodra je de hardware hebt, zijn er geen verdere kosten verbonden aan het gebruik van DeepSeek via Ollama. Geen abonnementen, geen tokenlimietn, geen verborgen kosten. Je kunt het model dag en nacht gebruiken zonder dat er een factuur volgt. Vergelijk dit met cloud-API’s waar je betaalt per token, en de besparing wordt al snel significant bij intensief gebruik.

Geen Internetverbinding Nodig

Na het downloaden van het model heb je geen internetverbinding meer nodig. Dit maakt lokale DeepSeek ideaal voor:

  • Werken in het vliegtuig of op afgelegen locaties
  • Omgevingen met beperkte of onbetrouwbare internetverbindingen
  • Air-gapped beveiligingsomgevingen
  • Situaties waarin lage latentie cruciaal is

Volledige Controle en Aanpasbaarheid

Met een lokale installatie heb je volledige controle over:

  • Systeemprompts: Definieer exact hoe het model zich gedraagt
  • Temperatuur en parameters: Fijnafstelling van de creativiteit en nauwkeurigheid
  • Modelversie: Kies precies welke versie je wilt gebruiken
  • Beschikbaarheid: Geen afhankelijkheid van externe servers of onderhoudsmomenten
  • Integratie: Koppel het model aan je eigen applicaties via de lokale API

Lagere Latentie

Bij een krachtige lokale GPU kan de responstijd lager zijn dan bij cloud-gebaseerde diensten. Er is geen netwerklatentie, geen wachtrij, en geen throttling. Vooral voor real-time toepassingen en interactieve workflows is dit een groot voordeel.

Nadelen en Beperkingen

Het is eerlijk om ook de nadelen te benoemen van het lokaal draaien van DeepSeek:

Beperkte Modelgrootte

Het volledige DeepSeek-V3.2 model zoals dat online beschikbaar is op deepseek.com bevat honderden miljarden parameters. De lokale versies die via Ollama beschikbaar zijn, zijn kleiner en daarmee minder krachtig. Voor de meeste dagelijkse taken is dit geen probleem, maar voor de meest complexe taken zul je een verschil merken.

Hardware-investering

Een geschikte GPU is niet goedkoop. Hoewel je op termijn bespaart op abonnementskosten, is de initiële investering aanzienlijk. Een NVIDIA RTX 4090 kost bijvoorbeeld rond de €1.800.

Geen Automatische Updates

Bij cloud-diensten profiteer je automatisch van modelverbeteringen. Bij een lokale installatie moet je zelf nieuwe modelversies downloaden en installeren.

Energieverbruik

Het draaien van een GPU op volle kracht verbruikt aanzienlijke hoeveelheden elektriciteit. Een RTX 4090 kan tot 450 Watt verbruiken onder belasting. Op jaarbasis kan dit oplopen tot honderden euro’s aan stroomkosten.

Geavanceerd Gebruik: De Ollama API

Ollama biedt een lokale REST API die compatibel is met het OpenAI API-formaat. Dit maakt het eenvoudig om DeepSeek te integreren in je eigen applicaties.

Basis API-gebruik

Na het starten van een model draait Ollama een API-server op poort 11434:

# Chat completion
curl http://localhost:11434/api/chat -d '{
  "model": "deepseek-v3",
  "messages": [
    {"role": "user", "content": "Leg quantum computing uit in eenvoudige termen"}
  ]
}'

Integratie met Python

import requests

response = requests.post('http://localhost:11434/api/chat', json={
    'model': 'deepseek-v3',
    'messages': [
        {'role': 'user', 'content': 'Schrijf een Python-functie voor een bubblesort algoritme'}
    ],
    'stream': False
})

print(response.json()['message']['content'])

Wil je meer weten over het werken met de DeepSeek API? Bekijk dan onze uitgebreide DeepSeek API-gids voor ontwikkelaars.

Veelgemaakte Fouten en Oplossingen

“Out of Memory” Foutmelding

Dit is de meest voorkomende fout en betekent dat je GPU niet genoeg VRAM heeft. Oplossingen:

  1. Kies een kleiner model (bijv. 7B in plaats van 14B)
  2. Gebruik een sterkere quantisatie (Q4 in plaats van Q8)
  3. Verklein de contextlengte
  4. Sluit andere GPU-gebruikende applicaties

Model Laadt Erg Langzaam

Als het model traag laadt, controleer dan:

  1. Of het model op een SSD staat (niet op een HDD)
  2. Of er voldoende vrij RAM is
  3. Of er geen andere zware processen draaien

Slechte Tekstkwaliteit

Als de gegenereerde tekst onder de maat is:

  1. Probeer een groter model als je hardware het toelaat
  2. Gebruik een minder agressieve quantisatie
  3. Experimenteer met de temperatuurinstelling
  4. Controleer of je systeemprompt duidelijk genoeg is

Conclusie: Is Lokaal Draaien Iets voor Jou?

Het lokaal draaien van DeepSeek met Ollama is een fantastische optie voor iedereen die waarde hecht aan privacy, controle en onbeperkt gebruik. Met de juiste hardware biedt het een ervaring die de cloud-versies benadert, terwijl je volledige controle houdt over je gegevens.

Voor de gemiddelde gebruiker die geen specifieke privacyvereisten heeft en gewoon snel aan de slag wil, blijft de online versie op deepseek.com of onze gratis DeepSeek chat de eenvoudigste optie. Maar voor ontwikkelaars, bedrijven en privacybewuste gebruikers is Ollama een absolute aanrader.

De drempel om te beginnen is lager dan je denkt. Met een moderne gaming-PC kun je vandaag nog aan de slag met DeepSeek 7B, en de resultaten zullen je verbazen.

Probeer DeepSeek Nu

Wil je DeepSeek eerst uitproberen voordat je investeert in lokale hardware? Gebruik dan onze gratis DeepSeek chat om direct aan de slag te gaan. Zo kun je zelf ervaren wat DeepSeek te bieden heeft voordat je besluit om het lokaal te gaan draaien.

Bekijk ook onze andere artikelen:

Veelgestelde Vragen

Kan ik DeepSeek echt gratis lokaal draaien?
Ja, DeepSeek-modellen zijn uitgebracht onder de MIT-licentie en volledig gratis te gebruiken. Ollama is eveneens gratis. Je betaalt alleen voor de hardware die je al bezit.
Hoeveel VRAM heb ik minimaal nodig voor DeepSeek?
Voor het kleinste DeepSeek-model (1.5B parameters) heb je minimaal 4 GB VRAM nodig. Voor de 7B-versie is 8 GB aanbevolen, en voor de 67B-versie heb je minstens 48 GB VRAM nodig.
Is DeepSeek lokaal draaien even goed als de online versie?
Dat hangt af van het model dat je draait. De kleinere modellen (7B, 14B) zijn minder krachtig dan het volledige DeepSeek-V3.2 model online, maar bieden wel volledige privacy en geen afhankelijkheid van internet.
Werkt Ollama op mijn Mac met Apple Silicon?
Ja, Ollama werkt uitstekend op Apple Silicon Macs (M1, M2, M3, M4). De unified memory architectuur van Apple Silicon is bijzonder geschikt voor het draaien van grote taalmodellen.
Kan ik DeepSeek lokaal gebruiken zonder GPU?
Technisch gezien wel, maar het wordt sterk afgeraden. Zonder GPU draait het model op je CPU, wat extreem traag is. Voor acceptabele snelheden is een dedicated GPU met voldoende VRAM essentieel.
Hoe verschilt Ollama van andere manieren om DeepSeek lokaal te draaien?
Ollama is de meest gebruiksvriendelijke optie. Alternatieven zoals llama.cpp of vLLM bieden meer controle maar vereisen meer technische kennis. Ollama maakt het proces zo eenvoudig als het installeren van een gewone applicatie.