Ollama auf dem Mac Mini M4 einrichten — Dein lokaler KI-Assistent

Du möchtest große Sprachmodelle direkt auf deinem Mac Mini M4 betreiben? Dann ist Ollama genau das richtige Werkzeug für dich. Mit dem M4-Chip hast du genug Leistung, um verschiedene KI-Modelle lokal und ohne Cloud-Anbindung zu nutzen. Hier erfährst du, wie du in wenigen Schritten loslegst.

TL;DR

Ollama installiert sich in unter 2 Minuten per Drag & Drop
16 GB RAM reichen für kleinere Modelle (Llama 3.2 1B/3B), 24 GB für anspruchsvollere
Nach der Installation ein Modell mit ollama pull <name> herunterladen
Mit ollama run <name> direkt im Terminal chatten
API-Server aktivieren für externe Tools: ollama serve

Für wen ist das sinnvoll?

Ollama auf dem Mac Mini M4 lohnt sich für dich, wenn du:

Privacy über alles stellst — keine Daten gehen nach draußen
Kosteneffizienz wichtig ist — nach dem Kauf keine laufenden API-Kosten
Offline arbeiten willst oder musst
Entwickelst und lokale LLMs in Tools einbinden willst

Weniger sinnvoll: Wenn du maximale Leistung brauchst und dir Cloud-Kosten egal sind. Ein M4 Mac Mini schneidet bei Benchmarks gut ab, aber ein großer Cloud-Cluster ist schneller.

Voraussetzungen prüfen

Bevor du startest, vergewissere dich:

macOS Sonoma (14.x) oder neuer muss installiert sein
RAM: 16 GB reichen für kleinere Modelle (Llama 3.2 1B/3B, Phi-3), 24 GB ermöglichen größere Varianten (Llama 3.2 7B, Mistral), 32 GB für die anspruchsvollsten Modelle
Festplatte: Ein Modell braucht je nach Größe 2–20 GB Platz

Ollama installieren

Variante 1: Offizieller Download

Geh auf ollama.com/download
Lade das macOS-Paket (~180 MB) herunter
Öffne die .dmg-Datei
Ziehe das Ollama-Icon in deinen Programme-Ordner

Beim ersten Start erscheint kein Fenster. Ollama läuft automatisch im Hintergrund — du erkennst es am Icon in der Menüleiste.

Variante 2: Homebrew

brew install ollama
brew services start ollama

Vorteil: Updates über brew upgrade immer aktuell.

Dein erstes Modell herunterladen

Öffne das Terminal und lade ein Modell:

ollama pull llama3.2

Der erste Download dauert je nach Internetverbindung ein paar Minuten. Ollama speichert alle Modelle lokal unter ~/.ollama/models/.

Empfohlene Modelle für den M4

Modell	RAM-Bedarf	Einsatzzweck
llama3.2:1b	~1 GB	Schnelle Tests, ressourcenschonend
llama3.2:3b	~2 GB	Guter Allround-Einstieg
phi3:latest	~2 GB	Kompakt, gute Qualität
mistral:latest	~4 GB	Ausgewogenes Verhältnis
codellama:7b	~4 GB	Programmieraufgaben

Weitere Modelle findest du auf ollama.com/library.

Modell starten und nutzen

ollama run llama3.2

Ab jetzt kannst du direkt im Terminal chatten. Beende die Sitzung mit /bye oder Strg+D.

Zwischen Modellen wechseln

ollama run mistral
ollama run codellama:7b

Jedes Modell, das du mit ollama pull heruntergeladen hast, steht sofort zur Verfügung.

API-Server aktivieren

Ollama bringt einen eingebauten API-Server mit. Damit kannst du LLMs in andere Tools einbinden:

ollama serve

Der Server läuft auf http://localhost:11434. Du kannst ihn jetzt mit HTTP-Requests ansprechen:

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "Erkläre mir Apple Silicon in zwei Sätzen.",
  "stream": false
}'

Wichtig: Der Server ist standardmäßig nur lokal erreichbar. Öffne ihn nicht ungeschützt ins Netzwerk.

Ollama mit einem WebUI nutzen

Wer eine grafische Oberfläche bevorzugt, kann ein WebUI parallel zu Ollama installieren. Die bekannteste Option ist Ollama WebUI — eine moderne Chat-Oberfläche, die sich wie ein lokaler ChatGPT anfühlt.

# WebUI starten (Docker-Variante)
docker run -d -p 3000:8080 \
  -e OLLAMA_BASE_URL=http://localhost:11434 \
  --name webui ghcr.io/ollama-webui/ollama-webui:main

Dann im Browser http://localhost:3000 öffnen.

Typische Fehler und Fixes

”command not found: ollama”

Ollama läuft nicht. Starte es entweder über die App oder mit brew services start ollama.

Modell startet nicht — nicht genug RAM

Dein Mac hat zu wenig freien Arbeitsspeicher. Schließe andere Apps oder wechsle auf ein kleineres Modell.

Download bricht ab

Internetverbindung prüfen. Alternativ: Download fortsetzen mit ollama pull <modell> — Ollama setzt unterbrochene Downloads fort.

Langsame Antworten

Je größer das Modell, desto langsamer auf dem M4. Prüfe mit ollama ps welches Modell aktiv ist und wie viel RAM es verbraucht.

Tradeoffs — ehrlich betrachtet

Was gut ist:

Vollständige Privacy — keine Daten verlassen deine Maschine
Keine laufenden Kosten nach dem Kauf
Einfache Installation und Bedienung

Was weniger gut ist:

M4 Mac Mini ist langsamer als ein H100-Cluster in der Cloud
Modelle müssen lokal heruntergeladen und gespeichert werden
Nicht alle Modelle laufen optimal auf Apple Silicon (native MLX-Optimierung fehlt bei Ollama teilweise)
Updates und neue Modelle müssen manuell geholt werden

Fazit

Ollama auf dem Mac Mini M4 ist der schnellste Weg, um lokale KI-Modelle auszuprobieren. Die Installation dauert keine 5 Minuten, und du bist sofort produktiv. Für Entwickler, Privacy-Fans und alle, die keine Lust auf Cloud-Abhängigkeit haben, ist die Kombination Mac Mini M4 + Ollama ein pragmatischer Einstieg.

Wenn du tiefer einsteigen willst, schau dir LM Studio als Alternative an — dort bekommst du native MLX-Unterstützung und eine noch komfortablere Oberfläche.