Lokalny model AI na Proxmox — jak uruchomić własnego LLM-a w firmie

„Chcielibyśmy używać AI do analizy dokumentów, ale nie możemy wysyłać danych klientów do OpenAI” — to zdanie słyszymy coraz częściej od kancelarii, przychodni i firm produkcyjnych. I słusznie: nie każdy dokument może opuścić firmę. Dobra wiadomość jest taka, że własny model językowy (LLM) można dziś uruchomić na własnym serwerze — a jeśli masz już Proxmoksa, masz też idealne miejsce, żeby to zrobić.

To temat, który łączy dwie rzeczy, o których piszemy na tym blogu: praktyczną wirtualizację i zdrowy rozsądek w wydawaniu pieniędzy na IT. Zobaczmy, jak to wygląda w praktyce.

Po co firmie własny, lokalny LLM

  • Prywatność i zgodność — dane nie opuszczają Twojej infrastruktury. Dla danych osobowych, medycznych czy objętych tajemnicą zawodową to często warunek konieczny.
  • Przewidywalny koszt — brak rozliczania za token. Płacisz raz za sprzęt (albo używasz tego, co masz), a nie co miesiąc za zużycie API.
  • Niezależność — model działa nawet bez internetu i nie znika, gdy dostawca zmieni cennik lub regulamin.
  • Integracja wewnętrzna — możesz „podpiąć” model do własnych dokumentów, bazy wiedzy czy systemu zgłoszeń (tzw. RAG) bez ujawniania ich na zewnątrz.

Dlaczego akurat Proxmox

Jeśli przeszedłeś już drogę opisaną w naszym cyklu — od pytania czym jest Proxmox VE po migrację serwerów na Proxmox — to lokalny LLM jest naturalnym kolejnym workloadem. Proxmox daje tu kilka konkretnych przewag:

  • Izolacja — model uruchamiasz w osobnej maszynie wirtualnej lub kontenerze, nie mieszając go z resztą usług.
  • Przekazanie GPU (passthrough) — kartę graficzną można przypisać bezpośrednio do maszyny z modelem, co radykalnie przyspiesza działanie.
  • Snapshoty i kopie — eksperymentujesz z modelami bez ryzyka; w razie czego wracasz do poprzedniego stanu.

VM czy kontener LXC?

To częste pytanie. Z grubsza:

  • Kontener LXC — lżejszy, szybszy start, świetny gdy dzielisz jedną kartę GPU i chcesz maksymalnie wykorzystać zasoby. Więcej o tym, dlaczego kontenery LXC bywają lepsze niż pełna VM, pisaliśmy osobno.
  • Maszyna wirtualna (KVM) — pełniejsza izolacja i prostszy, „czysty” GPU passthrough. Bezpieczniejszy wybór, gdy model ma być produkcyjny i odseparowany.

Jakiego sprzętu naprawdę potrzebujesz

Tu rozprawmy się z mitem, że „AI wymaga serwerowni za miliony”. Dla typowych zastosowań małej firmy:

  • Małe modele (do ~8B parametrów) — działają sensownie nawet na karcie z 8–12 GB VRAM, a w wersjach skwantyzowanych potrafią ruszyć na mocnym CPU. Wystarczą do streszczania, klasyfikacji maili, prostego asystenta.
  • Średnie modele (~13–34B) — komfortowo potrzebują 24 GB VRAM (np. jedna porządna karta). To rozsądny punkt dla jakościowej pracy z dokumentami po polsku.
  • RAM i dysk — 32–64 GB RAM i szybki dysk NVMe na wagi modeli. Nic egzotycznego.

W praktyce wiele firm zaczyna od jednej karty GPU dołożonej do istniejącego hosta Proxmox — i to wystarcza do pierwszych realnych wdrożeń.

Stos, który po prostu działa

Nie trzeba budować niczego od zera. Sprawdzony, otwarty zestaw to:

  • Ollama lub llama.cpp — silnik uruchamiający model lokalnie, z prostym API.
  • Open WebUI — wygodny interfejs czatu dla pracowników, podobny do tego, co znają z sieci.
  • Baza wektorowa (np. Qdrant) — gdy chcesz, by model odpowiadał na podstawie Twoich dokumentów.

Całość zamykasz w jednym kontenerze lub VM, obejmujesz monitoringiem i kopią zapasową — dokładnie tak, jak każdą inną usługę w Twojej infrastrukturze.

O bezpieczeństwie nie zapominaj

Lokalny LLM to kolejna usługa, którą trzeba zabezpieczyć. Dostęp tylko z sieci wewnętrznej, uwierzytelnianie w Open WebUI, brak wystawiania panelu do internetu — zasady są te same, co w naszym wpisie o konfiguracji Proxmoksa i hardeningu środowiska.

Co dalej w tym cyklu

W kolejnych wpisach zajmiemy się siecią w Proxmoksie, doborem storage (ZFS, Ceph, LVM) oraz utrzymaniem środowiska bez przestojów — wszystkim, co sprawia, że taki lokalny LLM działa stabilnie i produkcyjnie, a nie tylko „w demie”.

Myślisz o własnym AI, ale nie wiesz, od czego zacząć ani jaki sprzęt dobrać? Napisz do nas — pomożemy zaprojektować i wdrożyć lokalny model na Twoim Proxmoksie, dopasowany do realnych potrzeb i budżetu.

Zostaw komentarz

Twój adres email nie zostanie opublikowany. Wymagane pola są oznaczone *

Przewijanie do góry