体验ollama

介绍

Ollama 诞生于 AI 技术民主化的浪潮中,其核心使命是让每个人都能在本地设备上自由运行大型语言模型

下载

# 脚本安装
curl -fsSL https://ollama.com/install.sh | sh

# 手动下载安装
curl -fsSL https://ollama.com/download/ollama-linux-amd64.tar.zst
sudo tar -xvf ollama-linux-amd64.tar.zst -C /usr

核心命令速查

基础管理

命令
说明
场景

ollama serve

启动 API 服务(后台常驻)

生产环境/脚本调用

ollama run <模型>

交互式对话

测试提示词效果

ollama run <模型> --verbose

显示生成速度统计

评估性能

ollama list / ollama ls

列出已下载模型

管理磁盘空间

ollama ps

查看当前运行中的模型

监控 VRAM 占用

ollama stop <模型>

强制卸载模型释放显存

切换模型前

ollama pull <模型>

下载/更新模型

首次部署

ollama rm <模型>

删除模型

清理空间

ollama create <名> -f Modelfile

基于配置创建定制模型

角色固定化

非交互式使用(适合流水线)

单条提示直接输出(用于脚本)

设置为系统服务

::: warning 如果提示 Error: could not connect to ollama server, run 'ollama serve' to start it 那么说明用户/权限配置有问题

需要修改服务文件

将用户改为你的实际用户

然后重启服务

:::

配置镜像源(国内加速)

临时

永久配置

写入 ~/.bashrc

常用镜像源

镜像源
地址
备注

官方默认

registry.ollama.ai

海外,国内慢

DaoCloud

ollama.m.daocloud.io

国内较快,推荐

阿里云

registry.aliyuncs.com/ollama

需确认可用性

清华 TUNA

ollama.tuna.tsinghua.edu.cn

教育网友好

DeepSeek 官方镜像

ollama.deepseek.com

浙江大学镜像站

ollama.zju.edu.cn

魔搭社区

ollama.modelscope.cn

验证加速效果

性能加速关键配置

环境变量

建议将以下内容加入 ~/.bashrcsystemd 服务配置

显存释放技巧

当你需要切换模型(如从文本生成切换到检查脚本)时

针对小说生产的Modelfile定制

创建 novel_assistant.modelfile

创建并运行

API集成

基础生成接口

聊天接口(多轮对话保持角色)

16GB VRAM 模型选择建议

模型
量化版本
显存占用
适用场景

qwen3:14b

Q4_K_M

~9GB

主力创作,中文表现优秀

llama3.1:8b

Q8_0

~8GB

快速迭代测试提示词

gemma3:12b

Q4_K_M

~8GB

轻量级改写任务

deepseek-r1:14b

Q4_K_M

~9GB

需要推理能力的复杂剧情

gpt-oss:20b

Q4_K_M

~14GB

你的配置上限,速度极快

::: warning 注意 避免同时加载多个大模型。 :::

生产环境 Systemd 服务配置

创建 /etc/systemd/system/ollama.service

启用

参考

Last updated

Was this helpful?