LLMs in der Cloud kostenlos ausführen.

Kostenlos ist ein schwieriges Wort in der KI-Welt, denn es kommt immer darauf an, was genau zu den Kosten gezählt wird. Ich werde mich hier auf Anbieter konzentrieren, die vorweg kein Geld verlangen und mit dem Claude Code in irgendeiner Weise zusammenarbeiten können sollte. Zur Einordnung des Ganzen noch ein Gedanke.

Table of Contents

Cloud vs. VPS/Grafikkartenmiete vs. Lokal

Während man hart zwischen extern und lokal unterscheiden kann, gibt es doch noch einen Unterschied, wo genau die Daten in der Cloud verarbeitet werden. Dazu gehören nicht nur die geographischen Optionen, wie USA, Europa und China sondern auch die jeweiligen Firmen, denen wir unsere Daten anvertrauen werden. Ich glaube, es macht einen direkten Unterschied, ob wir die komplette Infrastruktur von Gemini (Google) oder Qwen (Alibaba) nutzen oder die jeweiligen Open Source Versionen auf eigener bzw. angemieteter Hardware kontrolliert laufen lassen. Es ist davon auszugehen, dass unsere Eingaben in das LLM, vor allem bei den größeren Anbietern, mindestens zum Training genutzt werden.

Kostenlos

Ollama Cloud

Ollama bietet Usern, die sich registrieren, einige Modelle kostenlos an. Die Nutzung ist, wie bei allen anderen Anbietern, Zeit und Token limitiert. Ollama schließt offiziell die Nutzung der Daten fürs Training aus.
Registrierung:

Registrieren mit Email und Password
Email bestätigen

Einrichtung:

Ollama CLI installieren
Ollama CLI mit Cloudmodell ausführen Bsp:
```
ollama run gemma4:31b-cloud
```

Browserlink erhalten:

'You need to be signed in to Ollama to run Cloud models.If your browser did not open, navigate to:'

Link ausführen und Konto mit Ollama CLI connecten

Ollama kann jetzt mit Cloudmodellen ausgeführt werden.

Achtung: Anscheinend waren früher alle Modelle frei, jetzt bekomme ich zb. bei kimi-k2.6:cloud diese Fehlermeldung:

Error: 403 Forbidden: this model requires a subscription, upgrade for access: https://ollama.com/upgrade'

Leider habe ich noch keine Seite gefunden, die Auflistet welche Modelle davon betroffen sind.

Weiterführende Links: https://github.com/RedBeret/awesome-ollama-models

Openrouter

Openrouter sieht sich als Vereinheitlicher, der die ganzen unterschiedlichen Anbieter für LLMs für den Nutzer unter einen Hut bringen möchte. Es bietet registrierten Usern kostenlose Tokens für bestimmte Modelle an. Auch gibt es einen Modus bei dem Openrouter nach sieht, welche Modelle gerade frei sind und wählt für den Nutzer die besten aus.

Registrierung:

Registrieren mit Email und Password
Email bestätigen
Api Key generieren ( Vorsicht: wird nur einmal angezeigt.)

Einrichtung:

curl https://openrouter.ai/api/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $OPENROUTER_API_KEY" \
-d '{
"model": "openrouter/free",
"messages": [
{
"role": "user",
"content": "What is the meaning of life?"
}
]
}'

Weitere Hinweise: https://openrouter.ai/docs/quickstart

Liste von freien Modellen finden sich hier: https://openrouter.ai/models?q=d&max_price=0

huggingface

Huggingface ist eher die Sammelstelle für die LLM Entwicklung. Soweit ich gelesen habe, bezieht Ollama seine Modelle von hier.

Registrierung:

Registrieren mit Email und Password
Testen ob ich ein Mensch bin
Email bestätigen
Token erzeugen mit Lese und Schreibrechten (Vorsicht: wird nur einmal angezeigt.)

;

curl https://router.huggingface.co/v1/chat/completions \
-H "Authorization: Bearer $HF_TOKEN" \
-H 'Content-Type: application/json' \
-d '{
"messages": [
{
"role": "user",
"content": "How many G in huggingface?"
}
],
"model": "openai/gpt-oss-120b:fastest",
"stream": false
}'

Genau wie openrouter.ai scheint auch huggingface den Weg des Vereinheitlichers zu gehen und mehrere Anbieter unter einem Dach bzw API vereinen zu wollen. Mehr Informationen gibt es hier auf https://huggingface.co/docs/inference-providers/index?python-clients=requests

Google AIStudio

AIStudio ist die googleeigene Plattform um mit Googles Gemini interagieren zu können.

Registrierung:

Registrieren mit Googlekonto auf AIStudio
Auf "Get API Key" klicken
Auf "Create API Key" klicken

curl "https://generativelanguage.googleapis.com/v1beta/models/gemini-flash-latest:generateContent" \
  -H 'Content-Type: application/json' \
  -H 'X-goog-api-key: api-key' \
  -X POST \
  -d '{
    "contents": [
      {
        "parts": [
          {
            "text": "Explain how AI works in a few words"
          }
        ]
      }
    ]
  }'

Google bietet noch mehr an, wie Google Colab, das für python Notebooks gemacht ist.

groq

groq war einer meiner ersten Anbieter, den ich für LLMs genutzt habe. Es sind größtenteils Open Source LLMs verfügbar.

Registrierung:

Registrieren mit Email auf https://console.groq.com/
Über erhaltene Email anmelden
Auf "API Keys" klicken
Auf "Create API Key" klicken
Name Eingeben und "Submit" klicken
Key merken (Vorsicht: wird nur einmal angezeigt.)

curl https://api.groq.com/openai/v1/chat/completions -s \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $GROQ_API_KEY" \
-d '{
  "model": "llama-3-3-70b-versatile",
  "messages": [{
    "role": "user",
    "content": "Explain the importance of fast language models"
  }]
}'

Fazit

Der Wechsel zu Bezahldiensten ist meistens teurer als erwartet, da die vorher kostenlose Nutzung nicht angerechnet wird und jetzt ab der ersten Benutzung berechnet wird.
Auch beinhaltet die kostenlose Nutzung nicht immer das aktuelle Modell. Es gibt Anhaltspunkte, dass z.b. ChatGPT nach einiger Zeit die kostenlosen Nutzer von seinem gutem Modell auf ein weniger gutes Modell herabstuft. Es ist gut möglich, dass bald andere Anbieter diesem Beispiel folgen werden.

Für meine Claude Code Installation aus meinem vorhergehenden Artikel werde ich wohl erstmal nur Ollama nutzen, da es zwar möglich ist Claude Code mit den anderen Anbieten zu betreiben, es aber etwas frickelig in der Einstellung ist.

Noch mehr kostenfreie LLMs finden sich hier https://www.free-llm.com/

Im nächsten Artikel werden wir kurz durchgehen, welche LLM Arten es gibt und einige Begriffe klären.

Bis dahin

Viel Spaß

Tagged Claude Code, KI, LLM, Ollama

rftweb

Informationsbits über Technik und Web Development

LLMs in der Cloud kostenlos ausführen.

Cloud vs. VPS/Grafikkartenmiete vs. Lokal

Kostenlos

Ollama Cloud

Openrouter

huggingface

Google AIStudio

groq

Fazit

About kowo

Schreibe einen Kommentar Antwort abbrechen

rftweb

Informationsbits über Technik und Web Development

Cloud vs. VPS/Grafikkartenmiete vs. Lokal

Kostenlos

Ollama Cloud

Openrouter

huggingface

Google AIStudio

groq

Fazit

Related Posts

Transformer, LoRA, RAG, MCP und andere LLM Begriffe eingeordnet

Ollama mit Claude Code lokal installieren

KI oder nicht KI für die Programmierung

About kowo

Schreibe einen Kommentar Antwort abbrechen