KI auf dem Mac Lokale KI · keine Ausreden
lokale-modelle 9 min read

LM Studio vs. Ollama — Welches Tool für Apple Silicon?

Praktischer Vergleich von LM Studio und Ollama für Mac-Nutzer mit lokalen LLMs auf Apple Silicon. Installation, Features, Performance und die beste Wahl für deinen Workflow.

LM Studio vs. Ollama — Welches sollten Sie auf Apple Silicon verwenden?

Sie haben einen Mac mit Apple Silicon und möchten einen lokalen LLM ausführen. Zwei Tools tauchen immer wieder auf: Ollama und LM Studio. Beide erledigen grundsätzlich dasselbe — große Sprachmodelle auf Ihrem Rechner ausführen — aber sie gehen dabei sehr unterschiedlich vor.

Hier der ehrliche Vergleich, mit realen Zahlen und ohne Marketing-Floskeln.

TL;DR

  • Ollama: Terminal-fokussiert, leichtgewichtig, perfekt für Entwickler. Wenn Sie einen skriptfähigen API-Server möchten oder sich auf der Kommandozeile wohlfühlen, ist dies das richtige Tool.
  • LM Studio: GUI-fokussiert, benutzerfreundlich, mit integrierter Modellentdeckung. Wenn Sie eine Drag-and-Drop-Erfahrung mit einer polished Oberfläche möchten, starten Sie hier.
  • Beide unterstützen Apple Silicon über native MLX-Optimierung.
  • RAM-Anforderungen sind identisch — 16 GB reichen für kleine Modelle, 32 GB ermöglichen komfortables Ausführen von 8B-Modellen.
  • Es gibt keinen Geschwindigkeitsunterschied bei äquivalenten Model+Quantisierungs-Kombinationen.

Was vergleichen wir?

Bevor wir ins Detail gehen, hier das, was beide Tools tatsächlich tun:

  • Herunterladen von LLM-Modelldateien (typischerweise im GGUF-Format)
  • Laden von Modellen in den RAM Ihres Macs (Unified Memory)
  • Bereitstellen des Modells über eine lokale API (kompatibel mit dem OpenAI-API-Format)
  • Inferenz ausführen — Text basierend auf Ihren Prompts generieren

Beide sind Open-Source. Beide laufen vollständig lokal. Keines sendet Ihre Daten irgendwohin.

FeatureOllamaLM Studio
LizenzMITApache 2.0
macOS nativJaJa
Apple Silicon optimiertJa (ARM64 + Metal)Ja (MLX-Backend)
GUINein (nur Menüleisten-Symbol)Ja (vollständige Desktop-App)
ModellentdeckungÜber CLI oder WebsiteIntegrierter durchsuchbarer Modellkatalog
API-KompatibilitätOpenAI-kompatibelOpenAI-kompatibel
GPU-AuslagerungApple MetalApple MLX
KonfigurationsdateiÜber UmgebungsvariablenGUI-Einstellungen + Konfigurationsdatei
Startzeitca. 2–5 Sekundenca. 3–7 Sekunden

Installation — Wie einfach ist der Einstieg?

Ollama

Option 1: Offizieller Download Laden Sie die .dmg von ollama.com herunter und ziehen Sie sie in Programme. Fertig — es läuft als Menüleisten-Symbol ohne sichtbares Fenster.

Option 2: Homebrew

brew install ollama
brew services start ollama

Option 3: One-Liner

curl -fsSL https://ollama.ai/install.sh | sh

Welchen Weg Sie auch wählen, Ollama ist in unter 2 Minuten installiert. Kein Konto, kein Login, keine Cloud-Komponente.

LM Studio

Laden Sie die macOS .dmg von lmstudio.ai herunter und ziehen Sie sie in Programme. Beim ersten Start erhalten Sie ein vollständiges Desktop-Fenster mit:

  • Einer Modellsuchleiste (Suche nach Name, Größe, Quantisierung)
  • Download-Fortschrittsbalken
  • Eine Chat-Oberfläche
  • Einem Toggle für den lokalen API-Server
  • Server-URL und Port-Anzeige

Es gibt auch eine CLI-Version (lms) für das Terminal, aber die meisten Benutzer werden sie nicht benötigen.

Urteil: LM Studio gewinnt bei der Erstbenutzererfahrung. Der integrierte Modellkatalog beseitigt die Reibung „welches Modell lade ich überhaupt herunter?”, die Ollama hat. Wenn Sie neu bei lokalen LLMs sind, ist LM Studio einladender.


Ihr erstes Modell ausführen

Mit Ollama

# Modell herunterladen
ollama pull llama3.2

# Sofort im Terminal ausführen
ollama run llama3.2

Fertig. Sie erhalten eine interaktive Eingabeaufforderung. Beenden Sie mit /bye oder Strg+D.

Um eine spezifische Variante herunterzuladen:

ollama pull llama3.2:3b       # 3 Milliarden Parameter
ollama pull codellama:7b      # Code-spezialisiertes Modell
ollama pull mistral:7b        # Mistral 7B
ollama pull deepseek-coder:6.7b  # DeepSeek Coder

Um den API-Server zu starten:

ollama serve
# Server läuft unter http://localhost:11434

Mit LM Studio

  1. App öffnen
  2. Modell suchen (z.B. „llama 3.2”)
  3. Auf Download klicken
  4. AI Chat in der Seitenleiste klicken
  5. Modell aus dem Dropdown auswählen
  6. Chat beginnen

Um den API-Server zu nutzen:

  1. Local Server in der Seitenleiste klicken
  2. Enable Server aktivieren
  3. URL notieren (z.B. http://localhost:1234/v1/chat/completions)
  4. Wie die OpenAI-API verwenden:
from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:1234/v1",
    api_key="not-needed"  # LM Studio benötigt lokal keinen Schlüssel
)

response = client.chat.completions.create(
    model="llama-3.2-3b-instruct",
    messages=[{"role": "user", "content": "Erklären Sie Apple Silicon in 2 Sätzen."}]
)
print(response.choices[0].message.content)

Urteil: Ollama gewinnt für terminal-native Workflows und Skripting. LM Studio gewinnt für GUI-Liebhaber und One-Click-Setup.


API-Kompatibilität — Funktionieren Ihre bestehenden Tools?

Beide Tools bieten einen OpenAI-API-kompatiblen Endpunkt. Das bedeutet: Wenn Sie Code haben, der OpenAI verwendet, können Sie die Basis-URL und den API-Schlüssel austauschen und es funktioniert lokal.

Ollama-Endpunkt

http://localhost:11434/v1/chat/completions

LM Studio-Endpunkt

http://localhost:1234/v1/chat/completions

Beide unterstützen Streaming via stream: true im Request-Body. Beide behandeln dieselben /v1/chat/completions, /v1/completions und /v1/embeddings-Endpunkte.

Ein wichtiger Unterschied: Ollama hat ein eigenes natives API-Format auf Port 11434, das nicht OpenAI-kompatibel ist (z.B. http://localhost:11434/api/generate). Für OpenAI-kompatible Anfragen verwenden Sie den /v1/ Pfad. LM Studio expose nur die OpenAI-kompatible Schnittstelle.

# Ollama: Natives Format (nicht OpenAI-kompatibel)
curl http://localhost:11434/api/generate \
  -d '{"model": "llama3.2", "prompt": "Hallo"}'

# Ollama: OpenAI-kompatibles Format
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "llama3.2", "messages": [{"role": "user", "content": "Hallo"}]}'

# LM Studio: OpenAI-kompatibel (dasselbe wie oben)
curl http://localhost:1234/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "llama-3.2-3b-instruct", "messages": [{"role": "user", "content": "Hallo"}]}'

Urteil: Unentschieden. Beide bieten eine OpenAI-kompatible API. Ollamas natives Format ist für einige fortgeschrittene Anwendungsfälle leistungsfähiger (Multi-Modell-Routing, Kontextmanipulation), aber LM Studios ist sauberer und besser dokumentiert.


Leistung auf Apple Silicon

Bei äquivalenten Model+Quantisierungs-Kombinationen ist die Leistung praktisch identisch. Beide nutzen Apples Metal-API oder MLX-Framework, um die Neural Engine und GPU-Kerne anzuzapfen. Der Flaschenhals ist Ihre Modellgröße und Ihr RAM, nicht das Tool.

Hier ist, was Sie auf einem Mac Mini M4 (32 GB RAM) erwarten können:

ModellQuantisierungRAM-VerbrauchTokens/Sek (ca.)
Llama 3.2 1BQ4_K_Mca. 1,2 GB90–100
Llama 3.2 3BQ4_K_Mca. 2,8 GB70–85
Llama 3.1 8BQ4_K_Mca. 5,4 GB35–45
Mistral 7BQ4_K_Mca. 4,8 GB30–40
CodeLlama 7BQ4_K_Mca. 4,8 GB28–38
Phi-3.5 Mini 3.8BQ4_K_Mca. 2,5 GB65–80

Dies sind ungefähre Richtwerte — Ihre genauen Zahlen hängen von der Prompt-Länge, den Generierungseinstellungen (Temperature, top_p) und der gleichzeitigen Systemlast ab.

Was wichtiger ist als das Tool:

  1. RAM ist der Flaschenhals — 16 GB beschränkt Sie auf 3B-Modelle. 32 GB öffnet 8B-Modelle.
  2. Quantisierung ist wichtiger als das Tool — ein Q2_K quantisiertes 8B-Modell läuft schneller als ein Q8_0 3B-Modell, aber mit niedrigerer Qualität.
  3. Kontextlänge beeinflusst die Geschwindigkeit — je mehr Ihr Prompt-Kontext wächst, desto langsamer wird die Generierung.

Urteil: Unentschieden bei roher Leistung. Wählen Sie basierend auf dem Workflow, nicht beim Benchmark-Hopping.


Modellverwaltung

Ollama

  • Modelle werden in ~/.ollama/models/ gespeichert
  • ollama list zeigt installierte Modelle
  • ollama show <modell> zeigt Metadaten
  • ollama rm <modell> entfernt ein Modell
  • Keine eingebaute Möglichkeit, Modellgröße oder Dateidetails zu sehen — Sie brauchen ls -lh ~/.ollama/models/

Benutzerdefinierte Modelle (z.B. feinabgestimmte GGUF-Dateien) können über eine Modelfile hinzugefügt werden:

# Modelfile erstellen
echo 'FROM ./my-custom-model.Q4_K_M.gguf' > Modelfile
ollama create my-custom-model -f Modelfile

LM Studio

  • Modelle werden in ~/.lmstudio/models/ gespeichert
  • Die GUI zeigt Download-Fortschritt, Modellgröße und Dateipfad
  • GGUF-Dateien per Drag-and-Drop in die App ziehen, um benutzerdefinierte Modelle zu laden (keine Modelfile nötig)
  • Lokale Modellbibliothek durchsuchen und filtern

Urteil: LM Studio gewinnt bei der Benutzerfreundlichkeit für technisch nicht versierte Nutzer. Ollama gewinnt für Power-User, die feinkörnige Kontrolle über Modelfiles wollen.


Fortgeschritten: WebUI und Tool-Integration

Keines der beiden Tools hat eine eingebaute Chat-Oberfläche, aber beide können mit einer gekoppelt werden.

Ollama + Ollama WebUI

docker run -d -p 3000:8080 \
  -e OLLAMA_BASE_URL=http://localhost:11434 \
  --name ollama-webui ghcr.io/ollama-webui/ollama-webui:main

Dann http://localhost:3000 öffnen. Sieht aus und fühlt sich an wie ein lokales ChatGPT.

LM Studio + Integrierter Chat

LM Studio wird mit einer integrierten Chat-Oberfläche geliefert — keine zusätzliche Einrichtung nötig. Für eine polierte Erfahrung funktioniert LM Studio auch mit jeder OpenAI-kompatiblen WebUI (z.B. Open WebUI).

Für Entwickler

Beide funktionieren mit:

  • Continue.dev (VS Code-Erweiterung für Inline-LLM-Codierung)
  • SimpleAI Chat (macOS-App)
  • n8n-Workflows (über den HTTP-Request-Node)
  • Alles, was OpenAIs API spricht

Urteil: Unentschieden. Beide integrieren sich in dasselbe Ökosystem. LM Studios eingebauter Chat spart Ihnen 5 Minuten Einrichtungszeit.


Kompromisse — Die ehrliche Zusammenfassung

Ollama

Vorteile:

  • Zero-Config API-Server
  • Extrem leichtgewichtig (keine GUI-Overhead)
  • Starke Community (größte lokale LLM-Nutzerbasis)
  • Modelfile-System für feinkörnige Anpassung
  • Läuft gut auf headless Maschinen (Server, headless Macs)

Nachteile:

  • Keine GUI — rein CLI oder API
  • Modellentdeckung erfordert zu wissen, wonach man auf ollama.com/library suchen muss
  • Natives API-Format unterscheidet sich von OpenAI — verwirrend für Anfänger

LM Studio

Vorteile:

  • Klassenbeste UX für technisch nicht versierte Nutzer
  • Integrierte Modellentdeckung und Download-Manager
  • Drag-and-Drop GGUF-Laden
  • Polierte Chat-Oberfläche out of the box
  • Aktive Entwicklung und saubere macOS-Integration

Nachteile:

  • Schwergewichtig (eine vollständige Electron-Desktop-App vs. Ollamas Binary)
  • Kein nativer headless/SSH-Modus (obwohl CLI-Tool existiert)
  • Kleinere Community als Ollama
  • Weniger Kontrolle über Modellparameter

Welches sollten Sie verwenden?

Verwenden Sie Ollama, wenn:

  • Sie Entwickler sind oder sich auf dem Terminal wohlfühlen
  • Sie LLM-Fähigkeiten in Skripte, Workflows oder Apps einbetten möchten
  • Sie auf einer headless Maschine oder einem Server laufen
  • Sie die größte Community und die meisten online verfügbaren Beispiele wollen
  • Sie eine automatisierte Pipeline bauen (CI/CD, Agents, etc.)

Verwenden Sie LM Studio, wenn:

  • Sie neu bei lokalen LLMs sind und eine GUI möchten
  • Sie Point-and-Click gegenüber Kommandozeile bevorzugen
  • Sie den schnellsten Weg von „Modell herunterladen” zu „mit KI chatten” möchten
  • Sie Modelle evaluieren und eine polierte Chat-Erfahrung wollen
  • Sie das Setup mit technisch nicht versierten Personen teilen müssen

Verwenden Sie beide: Viele Benutzer betreiben Ollama als API-Server auf einer Maschine (einschließlich headless Setups) und nutzen LM Studio auf ihrem Laptop für die GUI. Sie können dieselelben Modelldateien teilen, wenn Sie ~/.ollama/models/ nach ~/.lmstudio/models/ verlinken.


Kurzreferenz

# Ollama installieren
curl -fsSL https://ollama.ai/install.sh | sh
ollama pull llama3.2
ollama serve

# LM Studio installieren
# Herunterladen von https://lmstudio.ai — in Programme ziehen

# Verfügbare Ollama-Modelle prüfen
ollama list

# Laufende Ollama-Instanz prüfen
ollama ps

# Testanfrage an Ollama senden
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "llama3.2", "messages": [{"role": "user", "content": "Hi"}]}'

# Dieselbe Anfrage an LM Studio senden
curl http://localhost:1234/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "llama-3.2-3b-instruct", "messages": [{"role": "user", "content": "Hi"}]}'

Weiterführende Lektüre