Ich bräuchte aber wie gesagt immer noch ein Hosting lokal. Am liebsten wäre mir bisher Deep Seek, da ich ein paar mathematische Sachen berechnen wollte. Ich denke zwar, dass dazu die LLMs nichts taugen, aber testen will ich es dennoch. Nur sind die Rechnungen zu sensible für Open AI.
Bisher konnte ich herausfinden, dass Deep Seek mit Ollama weniger Hardware braucht, sonst wäre das zu teuer:
"With tools like Ollama, part of the model can be stored in system RAM while the active layers are kept in GPU VRAM, shifting them dynamically as needed. This method works particularly well for Mixture of Experts (MoE) models like DeepSeek V3, which only activate a portion of their parameters at a time.
However, even with offloading, you still need a high-memory server, such as:
- 512GB of RAM and an NVIDIA L4 GPU (24GB VRAM)
- Hetzner’s 512GB RAM + RTX 6000 Ada 48GB VRAM setup ($1k/month)
Since the entire model doesn’t fit into VRAM, response speeds drop significantly due to constant memory swapping. In practical terms, this means performance is often limited to just a few tokens per second."
