„Chcielibyśmy używać AI do analizy dokumentów, ale nie możemy wysyłać danych klientów do OpenAI” — to zdanie słyszymy coraz częściej od kancelarii, przychodni i firm produkcyjnych. I słusznie: nie każdy dokument może opuścić firmę. Dobra wiadomość jest taka, że własny model językowy (LLM) można dziś uruchomić na własnym serwerze — a jeśli masz już Proxmoksa, masz też idealne miejsce, żeby to zrobić.
To temat, który łączy dwie rzeczy, o których piszemy na tym blogu: praktyczną wirtualizację i zdrowy rozsądek w wydawaniu pieniędzy na IT. Zobaczmy, jak to wygląda w praktyce.
Po co firmie własny, lokalny LLM
- Prywatność i zgodność — dane nie opuszczają Twojej infrastruktury. Dla danych osobowych, medycznych czy objętych tajemnicą zawodową to często warunek konieczny.
- Przewidywalny koszt — brak rozliczania za token. Płacisz raz za sprzęt (albo używasz tego, co masz), a nie co miesiąc za zużycie API.
- Niezależność — model działa nawet bez internetu i nie znika, gdy dostawca zmieni cennik lub regulamin.
- Integracja wewnętrzna — możesz „podpiąć” model do własnych dokumentów, bazy wiedzy czy systemu zgłoszeń (tzw. RAG) bez ujawniania ich na zewnątrz.
Dlaczego akurat Proxmox
Jeśli przeszedłeś już drogę opisaną w naszym cyklu — od pytania czym jest Proxmox VE po migrację serwerów na Proxmox — to lokalny LLM jest naturalnym kolejnym workloadem. Proxmox daje tu kilka konkretnych przewag:
- Izolacja — model uruchamiasz w osobnej maszynie wirtualnej lub kontenerze, nie mieszając go z resztą usług.
- Przekazanie GPU (passthrough) — kartę graficzną można przypisać bezpośrednio do maszyny z modelem, co radykalnie przyspiesza działanie.
- Snapshoty i kopie — eksperymentujesz z modelami bez ryzyka; w razie czego wracasz do poprzedniego stanu.
VM czy kontener LXC?
To częste pytanie. Z grubsza:
- Kontener LXC — lżejszy, szybszy start, świetny gdy dzielisz jedną kartę GPU i chcesz maksymalnie wykorzystać zasoby. Więcej o tym, dlaczego kontenery LXC bywają lepsze niż pełna VM, pisaliśmy osobno.
- Maszyna wirtualna (KVM) — pełniejsza izolacja i prostszy, „czysty” GPU passthrough. Bezpieczniejszy wybór, gdy model ma być produkcyjny i odseparowany.
Jakiego sprzętu naprawdę potrzebujesz
Tu rozprawmy się z mitem, że „AI wymaga serwerowni za miliony”. Dla typowych zastosowań małej firmy:
- Małe modele (do ~8B parametrów) — działają sensownie nawet na karcie z 8–12 GB VRAM, a w wersjach skwantyzowanych potrafią ruszyć na mocnym CPU. Wystarczą do streszczania, klasyfikacji maili, prostego asystenta.
- Średnie modele (~13–34B) — komfortowo potrzebują 24 GB VRAM (np. jedna porządna karta). To rozsądny punkt dla jakościowej pracy z dokumentami po polsku.
- RAM i dysk — 32–64 GB RAM i szybki dysk NVMe na wagi modeli. Nic egzotycznego.
W praktyce wiele firm zaczyna od jednej karty GPU dołożonej do istniejącego hosta Proxmox — i to wystarcza do pierwszych realnych wdrożeń.
Stos, który po prostu działa
Nie trzeba budować niczego od zera. Sprawdzony, otwarty zestaw to:
- Ollama lub llama.cpp — silnik uruchamiający model lokalnie, z prostym API.
- Open WebUI — wygodny interfejs czatu dla pracowników, podobny do tego, co znają z sieci.
- Baza wektorowa (np. Qdrant) — gdy chcesz, by model odpowiadał na podstawie Twoich dokumentów.
Całość zamykasz w jednym kontenerze lub VM, obejmujesz monitoringiem i kopią zapasową — dokładnie tak, jak każdą inną usługę w Twojej infrastrukturze.
O bezpieczeństwie nie zapominaj
Lokalny LLM to kolejna usługa, którą trzeba zabezpieczyć. Dostęp tylko z sieci wewnętrznej, uwierzytelnianie w Open WebUI, brak wystawiania panelu do internetu — zasady są te same, co w naszym wpisie o konfiguracji Proxmoksa i hardeningu środowiska.
Co dalej w tym cyklu
W kolejnych wpisach zajmiemy się siecią w Proxmoksie, doborem storage (ZFS, Ceph, LVM) oraz utrzymaniem środowiska bez przestojów — wszystkim, co sprawia, że taki lokalny LLM działa stabilnie i produkcyjnie, a nie tylko „w demie”.
Myślisz o własnym AI, ale nie wiesz, od czego zacząć ani jaki sprzęt dobrać? Napisz do nas — pomożemy zaprojektować i wdrożyć lokalny model na Twoim Proxmoksie, dopasowany do realnych potrzeb i budżetu.
