Ollama:从入门到进阶
本文从开源工具Ollama的核心价值出发,系统介绍了其在大型语言模型(LLM)领域的应用优势。作为免费开源平台,Ollama显著降低了LLM的使用门槛,支持一键下载和管理Llama 3、Mistral等热门模型。文档详细解析了跨平台安装方法(macOS/Windows/Linux/Docker)、命令行操作流程(模型拉取、运行、交互),以及关键环境变量配置。重点阐述了基于HTTP的API设计,涵盖文本生成、多轮对话、模型管理等核心端点,并提供Python/JavaScript/curl的完整调用示例。此外,深入说明了Ollama与OpenAI API的兼容性方案,助力开发者无缝迁移现有项目,展现了其作为轻量级LLM部署方案的实用价值。
近年来,大型语言模型(LLM)以其强大的文本生成和理解能力,成为了人工智能领域的中坚力量。商业 LLM 的价格通常高昂且代码封闭,限制了研究者和开发者的探索空间。幸运的是,开源社区提供了像 Ollama 这样优秀的替代方案,让每个人都能够轻松体验 LLM 的魅力,并能结合 HPC 和 IDE 插件,打造更强大的个人助手。
什么是 Ollama?
Ollama 是一个用于构建大型语言模型应用的工具,它提供了一个简洁易用的命令行界面和服务器,让你能够轻松下载、运行和管理各种开源 LLM。与需要复杂配置和强大硬件的传统 LLM 不同,Ollama 让你能够方便地像使用手机 App 一样体验 LLM 的强大功能。
Ollama 的优势
Ollama 拥有以下显著优势:
· 开源免费: Ollama 及其支持的模型完全开源免费,任何人都可以自由使用、修改和分发。
· 简单易用: 无需复杂的配置和安装过程,只需几条命令即可启动和运行 Ollama。
· 模型丰富: Ollama 支持 Llama 3、Mistral、Qwen2 等众多热门开源 LLM,并提供一键下载和切换功能。
· 资源占用低: 相比于商业 LLM,Ollama 对硬件要求更低,即使在普通笔记本电脑上也能流畅运行。
· 社区活跃: Ollama 拥有庞大且活跃的社区,用户可以轻松获取帮助、分享经验和参与模型开发。
如何使用 Ollama?
使用 Ollama 非常简单,只需要按照以下步骤:
· 安装 Ollama: 根据你的操作系统,从 Ollama 官网 下载并安装最新版本。
· 启动 Ollama: 打开终端或命令行,输入 ollama serve 命令启动 Ollama 服务器。
· 下载模型: 在模型仓库 找到想要的模型,然后使用 ollama pull 命令下载,例如 ollama pull llama3:70b 。
· 运行模型: 使用 ollama run 命令启动模型,例如 ollama run llama3:70b 。
· 开始聊天: 在终端中输入你的问题或指令,Ollama 会根据模型生成相应的回复。
安装 Ollama
macOS
下载 Ollama for macOS
https://ollama.com/download/Ollama-darwin.zip
Windows
下载 Ollama for Windows
https://ollama.com/download/OllamaSetup.exe
Linux
curl -fsSL https://ollama.com/install.sh | sh
Docker
CPU 版本
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
GPU 版本
安装 Nvidia container toolkit https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html#installation 在 Docker 容器中运行 Ollama
docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
启动 Ollama
ollama serve
输出以下信息表示 Ollama 服务器已成功启动(V100 机器):
$ ollama serve
### 省略的日志输出 ###
Listening on [::]:11434 (version 0.1.42)
下载模型
ollama pull deepseek-r1:1.5b
运行模型
ollama run deepseek-r1:1.5b
例如,运行如下命令后:
$ ollama run deepseek-r1:1.5b
>>> who are you
<think>
</think>
Greetings! I'm DeepSeek-R1, an artificial intelligence assistant created by DeepSeek. I'm at your service and
would be delighted to assist you with any inquiries or tasks you may have.
>>> Send a message (/? for help)
Docker 容器中运行模型
docker exec -it ollama ollama run deepseek-r1:1.5b
配置 Ollama
Ollama 提供了多种环境变量以供配置:
名称 | 解释 | 默认值 |
---|---|---|
OLLAMA_DEBUG | 是否开启调试模式 | false |
OLLAMA_FLASH_ATTENTION | 是否闪烁注意力 | true |
OLLAMA_HOST | Ollama 服务器的主机地址 | empty |
OLLAMA_KEEP_ALIVE | 保持连接的时间 | 5m |
OLLAMA_LLM_LIBRARY | LLM 库 | empty |
OLLAMA_MAX_LOADED_MODELS | 最大加载模型数 | 1 |
OLLAMA_MAX_QUEUE | 最大队列数 | empty |
OLLAMA_MAX_VRAM | 最大虚拟内存 | empty |
OLLAMA_MODELS | 模型目录 | empty |
OLLAMA_NOHISTORY | 是否保存历史记录 | false |
OLLAMA_NOPRUNE | 是否启用剪枝 | false |
OLLAMA_NUM_PARALLEL | 并行数 | 1 |
OLLAMA_ORIGINS | 允许的来源 | empty |
OLLAMA_RUNNERS_DIR | 运行器目录 | empty |
OLLAMA_SCHED_SPREAD | 调度分布 | empty |
OLLAMA_TMPDIR | 临时文件目录 | empty |
Ollama API 交互
Ollama 提供了基于 HTTP 的 API,允许开发者通过编程方式与模型进行交互。
本文将详细介绍 Ollama API 的详细使用方法,包括请求格式、响应格式以及示例代码。
1. 启动 Ollama 服务
在使用 API 之前,需要确保 Ollama 服务正在运行。可以通过以下命令启动服务:
ollama serve
默认情况下,服务会运行在 http://localhost:11434。
设置环境变量
OLLAMA_HOST = 0.0.0.0
// OLLAMA_MODELS = D:\Models
OLLAMA_ORIGINS = *
2. API 端点
Ollama 提供了以下主要 API 端点:
生成文本(Generate Text)
端点:POST /api/generate
功能:向模型发送提示词(prompt),并获取生成的文本。
请求格式:
{
"model": "<model-name>", // 模型名称
"prompt": "<input-text>", // 输入的提示词
"stream": false, // 是否启用流式响应(默认 false)
"options": { // 可选参数
"temperature": 0.7, // 温度参数
"max_tokens": 100 // 最大 token 数
}
}
响应格式:
{
"response": "<generated-text>", // 生成的文本
"done": true // 是否完成
}
聊天(Chat)
端点:POST /api/chat
功能:支持多轮对话,模型会记住上下文。
请求格式:
{
"model": "<model-name>", // 模型名称
"messages": [ // 消息列表
{
"role": "user", // 用户角色
"content": "<input-text>" // 用户输入
}
],
"stream": false, // 是否启用流式响应
"options": { // 可选参数
"temperature": 0.7,
"max_tokens": 100
}
}
响应格式:
{
"message": {
"role": "assistant", // 助手角色
"content": "<generated-text>" // 生成的文本
},
"done": true
}
列出本地模型(List Models)
端点:GET /api/tags
功能:列出本地已下载的模型。
响应格式:
{
"models": [
{
"name": "<model-name>", // 模型名称
"size": "<model-size>", // 模型大小
"modified_at": "<timestamp>" // 修改时间
}
]
}
拉取模型(Pull Model)
端点:POST /api/pull
功能:从模型库中拉取模型。
请求格式:
{
"name": "<model-name>" // 模型名称
}
响应格式:
{
"status": "downloading", // 下载状态
"digest": "<model-digest>" // 模型摘要
}
3. 使用示例
生成文本
使用 curl 发送请求:
curl http://localhost:11434/api/generate -d '{
"model": "deepseek-r1:1.5b",
"prompt": "你好,你能帮我写一段代码吗?",
"stream": false
}'
多轮对话
使用 curl 发送请求:
curl http://localhost:11434/api/chat -d '{
"model": "deepseek-r1:1.5b",
"messages": [
{
"role": "user",
"content": "你好,你能帮我写一段 Python 代码吗?"
}
],
"stream": false
}'
列出本地模型
使用 curl 发送请求:
curl http://localhost:11434/api/tags
拉取模型
使用 curl 发送请求:
curl http://localhost:11434/api/pull -d '{
"name": "deepseek-r1:1.5b"
}'
4. 流式响应
Ollama 支持流式响应(streaming response),适用于实时生成文本的场景。
##启用流式响应
在请求中设置 "stream": true,API 会逐行返回生成的文本。
curl http://localhost:11434/api/generate -d '{
"model": "deepseek-r1:1.5b",
"prompt": "你好,你能帮我写一段代码吗?",
"stream": true
}'
响应格式
每行返回一个 JSON 对象:
{
"response": "<partial-text>", // 部分生成的文本
"done": false // 是否完成
}
5. 编程语言示例
Python 使用 requests 库与 Ollama API 交互:
import requests
# 生成文本
response = requests.post(
"http://localhost:11434/api/generate",
json={
"model": "deepseek-r1:1.5b",
"prompt": "你好,你能帮我写一段代码吗?",
"stream": False
}
)
print(response.json())
多轮对话:
response = requests.post(
"http://localhost:11434/api/chat",
json={
"model": "deepseek-r1:1.5b",
"messages": [
{
"role": "user",
"content": "你好,你能帮我写一段 Python 代码吗?"
}
],
"stream": False
}
)
print(response.json())
JavaScript 使用 fetch API 与 Ollama 交互:
// 生成文本
fetch("http://localhost:11434/api/generate", {
method: "POST",
headers: { "Content-Type": "application/json" },
body: JSON.stringify({
model: "deepseek-r1:1.5b",
prompt: "你好,你能帮我写一段代码吗?",
stream: false
})
})
.then(response => response.json())
.then(data => console.log(data));
多轮对话:
fetch("http://localhost:11434/api/chat", {
method: "POST",
headers: { "Content-Type": "application/json" },
body: JSON.stringify({
model: "deepseek-r1:1.5b",
messages: [
{
role: "user",
content: "你好,你能帮我写一段 Python 代码吗?"
}
],
stream: false
})
})
.then(response => response.json())
.then(data => console.log(data));
Ollama OpenAI API 交互
使用方法
OpenAI Python 库
from openai import OpenAI
client = OpenAI(
base_url='http://localhost:11434/v1/',
# required but ignored
api_key='ollama',
)
chat_completion = client.chat.completions.create(
messages=[
{
'role': 'user',
'content': 'Say this is a test',
}
],
model='deepseek-r1:1.5b',
)
response = client.chat.completions.create(
model="llava",
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "What's in this image?"},
{
"type": "image_url",
"image_url": "",
},
],
}
],
max_tokens=300,
)
completion = client.completions.create(
model="deepseek-r1:1.5b",
prompt="Say this is a test",
)
list_completion = client.models.list()
model = client.models.retrieve("deepseek-r1:1.5b")
embeddings = client.embeddings.create(
model="all-minilm",
input=["why is the sky blue?", "why is the grass green?"],
)
OpenAI JavaScript 库
import OpenAI from "openai";
const openai = new OpenAI({
baseURL: "http://localhost:11434/v1/",
// required but ignored
apiKey: "ollama",
});
const chatCompletion = await openai.chat.completions.create({
messages: [{ role: "user", content: "Say this is a test" }],
model: "deepseek-r1:1.5b",
});
const response = await openai.chat.completions.create({
model: "llava",
messages: [
{
role: "user",
content: [
{ type: "text", text: "What's in this image?" },
{
type: "image_url",
image_url:
"",
},
],
},
],
});
const completion = await openai.completions.create({
model: "deepseek-r1:1.5b",
prompt: "Say this is a test.",
});
const listCompletion = await openai.models.list();
const model = await openai.models.retrieve("deepseek-r1:1.5b");
const embedding = await openai.embeddings.create({
model: "all-minilm",
input: ["why is the sky blue?", "why is the grass green?"],
});
curl
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "deepseek-r1:1.5b",
"messages": [
{
"role": "system",
"content": "You are a helpful assistant."
},
{
"role": "user",
"content": "Hello!"
}
]
}'
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "llava",
"messages": [
{
"role": "user",
"content": [
{
"type": "text",
"text": "What'\''s in this image?"
},
{
"type": "image_url",
"image_url": {
"url": ""
}
}
]
}
],
"max_tokens": 300
}'
curl http://localhost:11434/v1/completions \
-H "Content-Type: application/json" \
-d '{
"model": "deepseek-r1:1.5b",
"prompt": "Say this is a test"
}'
curl http://localhost:11434/v1/models
curl http://localhost:11434/v1/models/deepseek-r1:1.5b
curl http://localhost:11434/v1/embeddings \
-H "Content-Type: application/json" \
-d '{
"model": "all-minilm",
"input": ["why is the sky blue?", "why is the grass green?"]
}'
端点
/v1/chat/completions
支持的功能
[x] Chat completions
[x] 流式传输
[x] JSON 模式
[x] 可重复的输出
[x] 视觉
[x] 工具(流式传输支持即将推出)
[ ] 对数概率
支持的请求字段
[x] model
[x] messages
[x] 文本 content
[x] 图像 content
[x] Base64 编码的图像
[ ] 图像 URL
[x] content 部分的数组
[x] frequency_penalty
[x] presence_penalty
[x] response_format
[x] seed
[x] stop
[x] stream
[x] temperature
[x] top_p
[x] max_tokens
[x] tools
[ ] tool_choice
[ ] logit_bias
[ ] user
[ ] n
/v1/completions
支持的功能
[x] Completions
[x] 流式传输
[x] JSON 模式
[x] 可重复的输出
[ ] 对数概率
支持的请求字段
[x] model
[x] prompt
[x] frequency_penalty
[x] presence_penalty
[x] seed
[x] stop
[x] stream
[x] temperature
[x] top_p
[x] max_tokens
[x] suffix
[ ] best_of
[ ] echo
[ ] logit_bias
[ ] user
[ ] n
注意事项
prompt 目前仅接受字符串
/v1/models
注意事项
created 对应模型最后修改的时间
owned_by 对应 ollama 用户名,默认为 "library"
/v1/models/{model}
注意事项
created 对应模型最后修改的时间
owned_by 对应 ollama 用户名,默认为 "library"
/v1/embeddings
支持的请求字段
[x] model
[x] input
[x] 字符串
[x] 字符串数组
[ ] 令牌数组
[ ] 令牌数组的数组
[ ] encoding format
[ ] dimensions
[ ] user
模型
在使用模型之前,请将其拉取到本地 ollama pull:
ollama pull deepseek-r1:1.5b
默认模型名称
对于依赖默认 OpenAI 模型名称(如 gpt-3.5-turbo)的工具,使用 ollama cp 将现有模型名称复制到一个临时名称:
ollama cp deepseek-r1:1.5b gpt-3.5-turbo
之后,这个新的模型名称可以指定在 model 字段中:
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "gpt-3.5-turbo",
"messages": [
{
"role": "user",
"content": "Hello!"
}
]
}'
设置上下文大小
OpenAI API 没有提供设置模型上下文大小的方法。如果你需要更改上下文大小,可以创建一个 Modelfile,其内容如下:
FROM <some model>
PARAMETER num_ctx <context size>
使用 ollama create mymodel 命令创建一个具有更新上下文大小的新模型。使用更新后的模型名称调用 API:
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "deepseek-r1:1.5b",
"messages": [
{
"role": "user",
"content": "Hello!"
}
]
}
下一篇:Bash 备忘清单