What is an Ollama VPS?

An Ollama VPS is a Cloudzy cloud server set up to run Ollama, the local LLM runtime. Pull open-source models like Llama 3, Mistral, Qwen, DeepSeek, or Gemma; serve them behind your own OpenAI-compatible API; build chat apps, agents, and tools without sending traffic to a third-party model provider.

Is Ollama pre-installed?

Ollama is available as a one-click install from the panel. Pick a Linux template, the binary lands on your PATH, and `ollama pull llama3` works within a minute. The HTTP API listens on port 11434 by default; bind it to your dedicated IP behind a reverse proxy.

Can I run LLMs on a CPU-only VPS?

Yes, for smaller models. Llama 3 8B and Mistral 7B run on a 16 GB CPU box, Qwen 0.5B–3B and Gemma 2B run comfortably on 4 GB. Throughput depends on the size of the model and the prompt; CPU is slower than GPU but fine for low-volume APIs, side projects, and dev work.

Do you offer GPU plans for larger models?

Yes. For 70B-class models or high-throughput inference, see our GPU plans (RTX 4090, RTX 5090, A100). The 4090 handles Llama 3 70B with quantization; A100 80GB runs full-precision big models. Linked from the pricing page.

Is the OpenAI-compatible API supported?

Yes. Ollama exposes a `/v1/chat/completions` endpoint that's drop-in compatible with the OpenAI client. Point your existing app at `http://your-vps:11434/v1` and switch the model name. Same SDK, no rewrite.

How much disk does a model take?

It depends. A 4-bit quantized 7B model is around 4 GB. An 8B is around 5 GB. A 70B at 4-bit is ~40 GB. Pull as many as you have room for. Plans start at 60 GB NVMe and go to 1.5 TB; mix and match models on one box.

How fast is provisioning?

Once payment is confirmed, your VPS is live in 60 seconds. With Ollama's one-click installed, the runtime is up in another minute. The first model pull takes longer (network-bound) but subsequent ones are warm-cached on NVMe.

Do I get a dedicated IP?

Yes, every VPS comes with a dedicated static IPv4 plus IPv6. Reach the Ollama API over the dedicated IP, slap a Caddy reverse proxy in front for HTTPS on a real hostname, and you're done. Floating IPs are available.

Are there hidden fees?

No. Egress is included in your monthly transfer allotment. Snapshots are free. IPv4 + IPv6 are included. Root access is included. The only paid extras are Floating IPs ($2.50/month) and additional snapshots beyond the free quota.

Is there a money-back guarantee?

Yes, 14 days from purchase, no questions asked, full refund. Apply from the panel or email support@cloudzy.com.

Ollama Hosting VPS

Esegui open-source
LLMs sul tuo VPS.

Name: Cloudzy Ollama VPS
Brand: Cloudzy
Availability: InStock
Rating: 4.6 (770 reviews)

Pronto per Ollama su AMD EPYC di ultima generazione e NVMe puro.
Indipendente dal 2008. Llama, Mistral, Qwen, DeepSeek, Gemma, tutto sotto il tuo IP.

4.6 · 770 recensioni su Trustpilot

₿ Crypto accepted

Esegui il deploy di un Ollama VPS Confronta i piani

A partire da $2.48/mo · 50% di sconto · Nessuna carta richiesta

~ ssh root@ollama-lon-001 connesso

root@ollama-lon-001:~# ollama pull llama3
pulling manifest... pulling model 5.0 GB ✔
root@ollama-lon-001:~# ollama run llama3 "What's a VPS?"
A VPS, or Virtual Private Server, is a virtualized
computing environment with its own OS and dedicated
resources, hosted in the cloud...
root@ollama-lon-001:~# _

Ollama VPS in sintesi

Cloudzy ospita OllamaVPS pronti per -ready a partire da 13 regioni in Nord America, Europa, Medio Oriente e Asia, a partire da $2.48 al mese. I piani vanno da 512 MB to 64 GB DDR5, tutti su Storage NVMe con 40 Gbps collegamenti in salita Ollama installs in one click; pull Llama 3, Mistral, Qwen, DeepSeek, Gemma e distribuirli tramite un API compatibile con OpenAIServers provision in 60 secondi. Cloudzy has operated independently since 2008 ed è valutata 4.6 / 5 by 770+ reviewers su Trustpilot.

Prezzo iniziale: $2.48 / mese
Provisioning: 60 secondi
Regioni: 13 nel mondo
SLA di uptime: 99.95%
Rimborso del denaro: 14 giorni
Fondato: 2008

Perché gli sviluppatori scelgono Cloudzy

Un host LLM preferito

Le quattro cose su cui i clienti ci confrontano davvero, fatte bene.

Ottimizzato per l'inferenza

Solo storage NVMe, memoria DDR5, uplink da 40 Gbps. I pesi del modello si caricano da NVMe in pochi secondi: nessun disco lento che rallenta la prima risposta.

Prova senza rischi

Garanzia soddisfatti o rimborsati di 14 giorni su ogni piano. Senza fare domande. Nessun costo di setup. Disdici dalla dashboard quando vuoi.

SLA di uptime al 99,95%

Monitoraggio automatizzato in 13 regioni. Lo SLA degli ultimi 30 giorni è tracciato pubblicamente su status.cloudzy.com, senza nasconderci dietro le PR.

Supporto umano 24 ore su 24

Risposte alla chat live e ai ticket di solito sotto i 5 minuti. Tecnici, non lettori di script. Risoluzione media sotto un'ora.

Scegli il tuo modello

Modelli open-weight.
A un pull di distanza.

Llama 3 per la scelta sicura, Mistral per la chat generale, Qwen per il multilingue, DeepSeek per il codice, Gemma per i task CPU leggeri. Combinali come vuoi, tutti sullo stesso NVMe.

Upload di GGUF personalizzati supportato su ogni piano

Llama 3

8B / 70B / 405B

Mistral

7B / Mixtral 8x7B

Qwen

0,5B – 72B Alibaba

DeepSeek

Coder / Chat / R1

Gemma

2B / 7B Google

Phi

Modelli Microsoft compact

Casi d'uso

Perché gli sviluppatori scelgono
Ollama VPS di Cloudzy.

API privata per la tua app

Endpoint compatibile con OpenAI sul tuo IP dedicato. Costruisci funzionalità di chat, riassuntori o agenti senza inviare i prompt degli utenti a provider terzi.

Agenti di sfondo

Gli agenti a lunga esecuzione che elaborano email in batch, fanno scraping di siti o taggano ticket automaticamente non si adattano alle API a consumo. Un VPS a tariffa fissa sì. Pianifica un job con cron, chiama Ollama, aspetta, ripeti.

Assistenti di codice

Esegui DeepSeek-Coder o Qwen-Coder dietro il plugin Continue o Tabby del tuo editor. Autocomplete reattivo, nessun costo per suggerimento, nessun codice inviato a vendor esterni.

Chat hobby e demo RAG

Carica un modello, collega Open WebUI o LibreChat, condividi il link con gli amici. Tutto lo stack su un unico VPS al costo di qualche caffè al mese.

LLM adatte alla compliance

I dati sensibili (documenti legali, sanitari, interni) restano sul tuo VPS. Controlla gli accessi con iptables e journald: il tuo modello, il tuo perimetro.

Crea i tuoi fine-tune

Scarica i pesi base, fai il fine-tuning su una macchina GPU, distribuisci il GGUF su un VPS Ollama CPU per l'inferenza. Serving economico nei giorni feriali, spendi di più solo quando alleni.

60s

Provisioning

40 Gbps

Collegamento ascendente

Solo NVMe

Lo storage

Regioni

99.95%

SLA di uptime

14 days

Rimborso del denaro

Rete globale

13 regioni. Quattro continenti.
Scegli il tuo, carica un modello.

Posiziona il tuo host di inferenza vicino agli utenti. Latenza mediana P50 sotto i 10 ms in Nord America e in Europa.

Vedi tutte le 13 regioni

 us-utah-1us-dal-1us-lax-1us-lvg-1us-nyc-1us-mia-1eu-ams-1eu-lon-1eu-fra-1eu-brn-1me-dxb-1ap-sgp-1ap-syd-1 

Prezzi

Paghi solo ciò che usi. Tutto qui.

A ore, mensile o annuale. Niente costi di egress. Nessun vincolo. Attualmente 50% di sconto tutti i piani.

1 GB DDR5

Modelli CPU leggeri · 1B–3B

$3.48 /mo

$6.95/mo −50%

Distribuisci ora

Rimborso entro 14 giorni

1 vCPU @ EPYC
25 GB NVMe
1 TB · 40 Gbps
IPv4 + IPv6 dedicati
Ollama con un clic

2 GB DDR5

7B / 8B su CPU

$7.48 /mo

$14.95/mo −50%

Distribuisci ora

Rimborso entro 14 giorni

1 vCPU @ EPYC
60 GB NVMe
3 TB · 40 Gbps
IPv4 + IPv6 dedicati
Ollama con un clic

Il più scelto

4 GB DDR5

Inferenza CPU di taglia media

$14.48 /mo

$28.95/mo −50%

Distribuisci ora

Rimborso entro 14 giorni

2 vCPU @ EPYC
120 GB NVMe
5 TB · 40 Gbps
IPv4 + IPv6 dedicati
Ollama con un clic

Il più scelto

8 GB DDR5

Contesto esteso · host API

$26.48 /mo

$52.95/mo −50%

Distribuisci ora

Rimborso entro 14 giorni

4 vCPU @ EPYC
240 GB NVMe
7 TB · 40 Gbps
IPv4 + IPv6 dedicati
Ollama con un clic

Ti serve di più? Vedi tutti i 10 piani (fino a 64 GB)

Domande frequenti. Ollama VPS

Domande frequenti, risposte chiare.

Cos'è un Ollama VPS?

Un Ollama VPS è un server cloud Cloudzy configurato per eseguire Ollama, il runtime LLM locale. Scarica modelli open source come Llama 3, Mistral, Qwen, DeepSeek o Gemma; servili tramite la tua API compatibile con OpenAI; crea app di chat, agenti e strumenti senza inviare traffico a provider di modelli di terze parti.

Ollama è preinstallato?

Ollama è disponibile con installazione in un clic dal pannello. Scegli un template Linux, il binario viene aggiunto al tuo PATH e `ollama pull llama3` funziona nel giro di un minuto. L'API HTTP è in ascolto sulla porta 11434 per impostazione predefinita; associalo al tuo IP dedicato dietro un reverse proxy.

Posso eseguire LLM su un VPS solo CPU?

Sì, per i modelli più piccoli. Llama 3 8B e Mistral 7B girano su una macchina CPU da 16 GB; Qwen 0.5B–3B e Gemma 2B girano senza problemi su 4 GB. La velocità dipende dalla dimensione del modello e dal prompt: CPU è più lento di GPU, ma va bene per API a basso volume, progetti secondari e sviluppo.

Offrite piani GPU per modelli più grandi?

Sì. Per modelli da 70B o inferenza ad alto throughput, consulta i nostri piani GPU (RTX 4090, RTX 5090, A100). La 4090 gestisce Llama 3 70B con quantizzazione; A100 80GB esegue modelli grandi a piena precisione. Trovi i link nella pagina dei prezzi.

L'API compatibile con OpenAI è supportata?

Sì. Ollama espone un endpoint `/v1/chat/completions` compatibile in modo nativo con il client OpenAI. Punta la tua app su `http://your-vps:11434/v1` e cambia il nome del modello. Stesso SDK, nessuna riscrittura.

Quanto spazio occupa un modello?

Dipende. Un modello 7B quantizzato a 4 bit è circa 4 GB. Un 8B è circa 5 GB. Un 70B a 4 bit è circa 40 GB. Scarica tutti i modelli che vuoi in base allo spazio disponibile. I piani partono da 60 GB NVMe e arrivano a 1,5 TB: puoi combinare più modelli sulla stessa macchina.

Quanto è veloce l'attivazione?

Una volta confermato il pagamento, il tuo VPS è attivo in 60 secondi. Con l'installazione in un clic di Ollama, il runtime è pronto in un altro minuto. Il primo download del modello richiede più tempo (dipende dalla rete), ma i successivi vengono serviti dalla cache su NVMe.

Ottengo un IP dedicato?

Sì, ogni VPS include un IPv4 statico dedicato più IPv6. Raggiungi l'API di Ollama tramite l'IP dedicato, metti davanti un reverse proxy Caddy per HTTPS su un hostname reale, e il gioco è fatto. Sono disponibili anche IP fluttuanti.

Ci sono costi nascosti?

No. L'egress è incluso nella tua quota di trasferimento mensile. Gli snapshot sono gratuiti. IPv4 + IPv6 sono inclusi. L'accesso root è incluso. Gli unici extra a pagamento sono i Floating IP (2,50 $/mese) e gli snapshot aggiuntivi oltre la quota gratuita.

C'è la garanzia di rimborso?

Sì, 14 giorni dall'acquisto, senza domande, rimborso totale. Richiedilo dal pannello o scrivi a [email protected].

Pronti quando lo sei tu.
ollama run, in 60 secondi.

Scegli una regione, clicca, scarica un modello. Il tuo LLM privato, il tuo IP dedicato.

Esegui il deploy di un Ollama VPS Confronta tutti i piani

Nessuna carta di credito richiesta · Rimborso entro 14 giorni · Annulla quando vuoi

Esegui open-source LLMs sul tuo VPS.

Un host LLM preferito

Ottimizzato per l'inferenza

Prova senza rischi

SLA di uptime al 99,95%

Supporto umano 24 ore su 24

Modelli open-weight. A un pull di distanza.

Perché gli sviluppatori scelgono Ollama VPS di Cloudzy.

API privata per la tua app

Agenti di sfondo

Assistenti di codice

Chat hobby e demo RAG

LLM adatte alla compliance

Crea i tuoi fine-tune

13 regioni. Quattro continenti. Scegli il tuo, carica un modello.

Paghi solo ciò che usi. Tutto qui.

Domande frequenti, risposte chiare.

Cos'è un Ollama VPS?

Ollama è preinstallato?

Posso eseguire LLM su un VPS solo CPU?

Offrite piani GPU per modelli più grandi?

L'API compatibile con OpenAI è supportata?

Quanto spazio occupa un modello?

Quanto è veloce l'attivazione?

Ottengo un IP dedicato?

Ci sono costi nascosti?

C'è la garanzia di rimborso?

Pronti quando lo sei tu. ollama run, in 60 secondi.

Esegui open-source
LLMs sul tuo VPS.

Modelli open-weight.
A un pull di distanza.

Perché gli sviluppatori scelgono
Ollama VPS di Cloudzy.

13 regioni. Quattro continenti.
Scegli il tuo, carica un modello.

Pronti quando lo sei tu.
ollama run, in 60 secondi.