Ollama 本地部署方法

1. 官网

https://ollama.com/

2. 安装

curl -fsSL https://ollama.com/install.sh | sh

一键安装脚本会自动完成以下操作：

添加 Ollama APT 仓库
安装 Ollama 二进制文件
创建 ollama 系统用户
注册 ollama.service 系统服务
启动服务并设置开机自启

3. 环境配置

3.1 修改访问权限为所有 IP

默认 Ollama 只监听 127.0.0.1，局域网其他设备无法访问。修改为监听所有网络接口：

vim /etc/systemd/system/ollama.service

在 [Service] 段下添加：

Environment="OLLAMA_HOST=0.0.0.0"

重启服务：

sudo systemctl daemon-reexec
sudo systemctl restart ollama

3.2 更改模型存储位置

默认模型下载到 ~/.ollama/models/，系统盘空间不足时可迁移到数据盘：

# 创建目标目录
mkdir -p /jgsteel/ollama

# 修改目录所有者
chown -R ollama:ollama /jgsteel/ollama

# 编辑服务配置
vim /etc/systemd/system/ollama.service

在 [Service] 段下添加：

Environment="OLLAMA_MODELS=/jgsteel/ollama"

重启服务：

sudo systemctl daemon-reexec
sudo systemctl restart ollama

3.3 环境变量说明

环境变量	默认值	说明
`OLLAMA_HOST`	`127.0.0.1`	监听地址，设为 `0.0.0.0` 允许远程访问
`OLLAMA_MODELS`	`~/.ollama/models`	模型文件存储目录
`OLLAMA_PORT`	`11434`	服务端口
`OLLAMA_KEEP_ALIVE`	`5m`	模型在内存中的保持时间
`OLLAMA_NUM_PARALLEL`	`1`	并行处理请求数

4. 模型管理

拉取模型

# 拉取模型（以 qwen3:32b 为例）
ollama pull qwen3:32b

查看已安装模型

ollama list

输出示例：

NAME              ID              SIZE      MODIFIED
qwen3:32b         abc123def456    18 GB     2 minutes ago

删除模型

ollama rm qwen3:32b

运行模型

# 交互式运行
ollama run qwen3:32b

# 单次推理
ollama run qwen3:32b "请用Python写一个快速排序"

5. 查看 GPU 使用情况

watch -n 1 nvidia-smi

每 1 秒刷新一次 GPU 状态，监控显存和 GPU 利用率。

6. API 调用

Ollama 提供 OpenAI 兼容的 API，部署后可通过 HTTP 调用：

# 部署地址
http://192.168.0.134:11434

# 示例：调用 chat 接口
curl http://192.168.0.134:11434/api/chat \
  -d '{
    "model": "qwen3:32b",
    "messages": [{"role": "user", "content": "Hello"}]
  }'

7. 常用操作速查

操作	命令
安装	`curl -fsSL https://ollama.com/install.sh \| sh`
查看服务状态	`systemctl status ollama`
重启服务	`sudo systemctl restart ollama`
拉取模型	`ollama pull <model>`
列出模型	`ollama list`
运行模型	`ollama run <model>`
删除模型	`ollama rm <model>`
查看日志	`journalctl -u ollama -f`
GPU 监控	`watch -n 1 nvidia-smi`

Professional English Terms

Term	Meaning
Ollama	本地大模型运行框架，支持一键部署和运行 LLM
Model Pull	拉取模型，从远程仓库下载模型到本地
Environment Variable	环境变量，控制 Ollama 运行时行为
GPU Monitoring	GPU 监控，通过 nvidia-smi 查看显存和利用率
OpenAI-compatible API	OpenAI 兼容 API，可用标准 OpenAI 客户端库调用 Ollama

1. 官网#

2. 安装#

3. 环境配置#

3.1 修改访问权限为所有 IP#

3.2 更改模型存储位置#

3.3 环境变量说明#

4. 模型管理#

拉取模型#

查看已安装模型#

删除模型#

运行模型#

5. 查看 GPU 使用情况#

6. API 调用#

7. 常用操作速查#

Professional English Terms#