Kostenlos ist ein schwieriges Wort in der KI-Welt, denn es kommt immer darauf an, was genau zu den Kosten gezählt wird. Ich werde mich hier auf Anbieter konzentrieren, die vorweg kein Geld verlangen und mit dem Claude Code in irgendeiner Weise zusammenarbeiten können sollte. Zur Einordnung des Ganzen noch ein Gedanke.
Cloud vs. VPS/Grafikkartenmiete vs. Lokal
Während man hart zwischen extern und lokal unterscheiden kann, gibt es doch noch einen Unterschied, wo genau die Daten in der Cloud verarbeitet werden. Dazu gehören nicht nur die geographischen Optionen, wie USA, Europa und China sondern auch die jeweiligen Firmen, denen wir unsere Daten anvertrauen werden. Ich glaube, es macht einen direkten Unterschied, ob wir die komplette Infrastruktur von Gemini (Google) oder Qwen (Alibaba) nutzen oder die jeweiligen Open Source Versionen auf eigener bzw. angemieteter Hardware kontrolliert laufen lassen. Es ist davon auszugehen, dass unsere Eingaben in das LLM, vor allem bei den größeren Anbietern, mindestens zum Training genutzt werden.
Kostenlos
Ollama Cloud
Ollama bietet Usern, die sich registrieren, einige Modelle kostenlos an. Die Nutzung ist, wie bei allen anderen Anbietern, Zeit und Token limitiert. Ollama schließt offiziell die Nutzung der Daten fürs Training aus.
Registrierung:
- Registrieren mit Email und Password
- Email bestätigen
Einrichtung:
- Ollama CLI installieren
- Ollama CLI mit Cloudmodell ausführen Bsp:
ollama run gemma4:31b-cloud
- Browserlink erhalten:
'You need to be signed in to Ollama to run Cloud models.If your browser did not open, navigate to:'
- Link ausführen und Konto mit Ollama CLI connecten
Ollama kann jetzt mit Cloudmodellen ausgeführt werden.
Achtung: Anscheinend waren früher alle Modelle frei, jetzt bekomme ich zb. bei kimi-k2.6:cloud diese Fehlermeldung:
Error: 403 Forbidden: this model requires a subscription, upgrade for access: https://ollama.com/upgrade'
Leider habe ich noch keine Seite gefunden, die Auflistet welche Modelle davon betroffen sind.
Weiterführende Links: https://github.com/RedBeret/awesome-ollama-models
Openrouter
Openrouter sieht sich als Vereinheitlicher, der die ganzen unterschiedlichen Anbieter für LLMs für den Nutzer unter einen Hut bringen möchte. Es bietet registrierten Usern kostenlose Tokens für bestimmte Modelle an. Auch gibt es einen Modus bei dem Openrouter nach sieht, welche Modelle gerade frei sind und wählt für den Nutzer die besten aus.
Registrierung:
- Registrieren mit Email und Password
- Email bestätigen
- Api Key generieren ( Vorsicht: wird nur einmal angezeigt.)
Einrichtung:
curl https://openrouter.ai/api/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $OPENROUTER_API_KEY" \
-d '{
"model": "openrouter/free",
"messages": [
{
"role": "user",
"content": "What is the meaning of life?"
}
]
}'
Weitere Hinweise: https://openrouter.ai/docs/quickstart
Liste von freien Modellen finden sich hier: https://openrouter.ai/models?q=d&max_price=0
huggingface
Huggingface ist eher die Sammelstelle für die LLM Entwicklung. Soweit ich gelesen habe, bezieht Ollama seine Modelle von hier.
Registrierung:
- Registrieren mit Email und Password
- Testen ob ich ein Mensch bin
- Email bestätigen
- Token erzeugen mit Lese und Schreibrechten (Vorsicht: wird nur einmal angezeigt.)
;
curl https://router.huggingface.co/v1/chat/completions \
-H "Authorization: Bearer $HF_TOKEN" \
-H 'Content-Type: application/json' \
-d '{
"messages": [
{
"role": "user",
"content": "How many G in huggingface?"
}
],
"model": "openai/gpt-oss-120b:fastest",
"stream": false
}'
Genau wie openrouter.ai scheint auch huggingface den Weg des Vereinheitlichers zu gehen und mehrere Anbieter unter einem Dach bzw API vereinen zu wollen. Mehr Informationen gibt es hier auf https://huggingface.co/docs/inference-providers/index?python-clients=requests
Google AIStudio
AIStudio ist die googleeigene Plattform um mit Googles Gemini interagieren zu können.
Registrierung:
- Registrieren mit Googlekonto auf AIStudio
- Auf „Get API Key“ klicken
- Auf „Create API Key“ klicken
curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-flash-latest:generateContent" \
-H 'Content-Type: application/json' \
-H 'X-goog-api-key: api-key' \
-X POST \
-d '{
"contents": [
{
"parts": [
{
"text": "Explain how AI works in a few words"
}
]
}
]
}'
Google bietet noch mehr an, wie Google Colab, das für python Notebooks gemacht ist.
groq
groq war einer meiner ersten Anbieter, den ich für LLMs genutzt habe. Es sind größtenteils Open Source LLMs verfügbar.
Registrierung:
- Registrieren mit Email auf https://console.groq.com/
- Über erhaltene Email anmelden
- Auf „API Keys“ klicken
- Auf „Create API Key“ klicken
- Name Eingeben und „Submit“ klicken
- Key merken (Vorsicht: wird nur einmal angezeigt.)
curl https://api.groq.com/openai/v1/chat/completions -s \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $GROQ_API_KEY" \
-d '{
"model": "llama-3-3-70b-versatile",
"messages": [{
"role": "user",
"content": "Explain the importance of fast language models"
}]
}'
Fazit
Der Wechsel zu Bezahldiensten ist meistens teurer als erwartet, da die vorher kostenlose Nutzung nicht angerechnet wird und jetzt ab der ersten Benutzung berechnet wird.
Auch beinhaltet die kostenlose Nutzung nicht immer das aktuelle Modell. Es gibt Anhaltspunkte, dass z.b. ChatGPT nach einiger Zeit die kostenlosen Nutzer von seinem gutem Modell auf ein weniger gutes Modell herabstuft. Es ist gut möglich, dass bald andere Anbieter diesem Beispiel folgen werden.
Für meine Claude Code Installation aus meinem vorhergehenden Artikel werde ich wohl erstmal nur Ollama nutzen, da es zwar möglich ist Claude Code mit den anderen Anbieten zu betreiben, es aber etwas frickelig in der Einstellung ist.
Noch mehr kostenfreie LLMs finden sich hier https://www.free-llm.com/
Im nächsten Artikel werden wir kurz durchgehen, welche LLM Arten es gibt und einige Begriffe klären.
Bis dahin
Viel Spaß