这里是文章模块栏目内容页
Ollama:从入门到进阶

Ollama:从入门到进阶

本文从开源工具Ollama的核心价值出发,系统介绍了其在大型语言模型(LLM)领域的应用优势。作为免费开源平台,Ollama显著降低了LLM的使用门槛,支持一键下载和管理Llama 3、Mistral等热门模型。文档详细解析了跨平台安装方法(macOS/Windows/Linux/Docker)、命令行操作流程(模型拉取、运行、交互),以及关键环境变量配置。重点阐述了基于HTTP的API设计,涵盖文本生成、多轮对话、模型管理等核心端点,并提供Python/JavaScript/curl的完整调用示例。此外,深入说明了Ollama与OpenAI API的兼容性方案,助力开发者无缝迁移现有项目,展现了其作为轻量级LLM部署方案的实用价值。

近年来,大型语言模型(LLM)以其强大的文本生成和理解能力,成为了人工智能领域的中坚力量。商业 LLM 的价格通常高昂且代码封闭,限制了研究者和开发者的探索空间。幸运的是,开源社区提供了像 Ollama 这样优秀的替代方案,让每个人都能够轻松体验 LLM 的魅力,并能结合 HPC 和 IDE 插件,打造更强大的个人助手。

什么是 Ollama?

Ollama 是一个用于构建大型语言模型应用的工具,它提供了一个简洁易用的命令行界面和服务器,让你能够轻松下载、运行和管理各种开源 LLM。与需要复杂配置和强大硬件的传统 LLM 不同,Ollama 让你能够方便地像使用手机 App 一样体验 LLM 的强大功能。

Ollama 的优势

Ollama 拥有以下显著优势:

· 开源免费: Ollama 及其支持的模型完全开源免费,任何人都可以自由使用、修改和分发。
· 简单易用: 无需复杂的配置和安装过程,只需几条命令即可启动和运行 Ollama。
· 模型丰富: Ollama 支持 Llama 3、Mistral、Qwen2 等众多热门开源 LLM,并提供一键下载和切换功能。
· 资源占用低: 相比于商业 LLM,Ollama 对硬件要求更低,即使在普通笔记本电脑上也能流畅运行。
· 社区活跃: Ollama 拥有庞大且活跃的社区,用户可以轻松获取帮助、分享经验和参与模型开发。

如何使用 Ollama?

使用 Ollama 非常简单,只需要按照以下步骤:

· 安装 Ollama: 根据你的操作系统,从 Ollama 官网 下载并安装最新版本。
· 启动 Ollama: 打开终端或命令行,输入 ollama serve 命令启动 Ollama 服务器。
· 下载模型: 在模型仓库 找到想要的模型,然后使用 ollama pull 命令下载,例如 ollama pull llama3:70b 。
· 运行模型: 使用 ollama run 命令启动模型,例如 ollama run llama3:70b 。
· 开始聊天: 在终端中输入你的问题或指令,Ollama 会根据模型生成相应的回复。

安装 Ollama

macOS

下载 Ollama for macOS
https://ollama.com/download/Ollama-darwin.zip

Windows

下载 Ollama for Windows
https://ollama.com/download/OllamaSetup.exe

Linux

curl -fsSL https://ollama.com/install.sh | sh

Docker

CPU 版本

docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

GPU 版本

安装 Nvidia container toolkit https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html#installation 在 Docker 容器中运行 Ollama

docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

启动 Ollama

ollama serve

输出以下信息表示 Ollama 服务器已成功启动(V100 机器):

$ ollama serve
### 省略的日志输出 ###
Listening on [::]:11434 (version 0.1.42)

下载模型

ollama pull deepseek-r1:1.5b

运行模型

ollama run deepseek-r1:1.5b

例如,运行如下命令后:

$ ollama run deepseek-r1:1.5b
>>> who are you
<think>

</think>

Greetings! I'm DeepSeek-R1, an artificial intelligence assistant created by DeepSeek. I'm at your service and
would be delighted to assist you with any inquiries or tasks you may have.

>>> Send a message (/? for help)

Docker 容器中运行模型

docker exec -it ollama ollama run deepseek-r1:1.5b

配置 Ollama

Ollama 提供了多种环境变量以供配置:

名称解释默认值
OLLAMA_DEBUG是否开启调试模式false
OLLAMA_FLASH_ATTENTION是否闪烁注意力true
OLLAMA_HOSTOllama 服务器的主机地址empty
OLLAMA_KEEP_ALIVE保持连接的时间5m
OLLAMA_LLM_LIBRARYLLM 库empty
OLLAMA_MAX_LOADED_MODELS最大加载模型数1
OLLAMA_MAX_QUEUE最大队列数empty
OLLAMA_MAX_VRAM最大虚拟内存empty
OLLAMA_MODELS模型目录empty
OLLAMA_NOHISTORY是否保存历史记录false
OLLAMA_NOPRUNE是否启用剪枝false
OLLAMA_NUM_PARALLEL并行数1
OLLAMA_ORIGINS允许的来源empty
OLLAMA_RUNNERS_DIR运行器目录empty
OLLAMA_SCHED_SPREAD调度分布empty
OLLAMA_TMPDIR临时文件目录empty

Ollama API 交互

Ollama 提供了基于 HTTP 的 API,允许开发者通过编程方式与模型进行交互。

本文将详细介绍 Ollama API 的详细使用方法,包括请求格式、响应格式以及示例代码。

1. 启动 Ollama 服务

在使用 API 之前,需要确保 Ollama 服务正在运行。可以通过以下命令启动服务:

ollama serve

默认情况下,服务会运行在 http://localhost:11434。

设置环境变量

OLLAMA_HOST = 0.0.0.0
// OLLAMA_MODELS = D:\Models
OLLAMA_ORIGINS = *

2. API 端点

Ollama 提供了以下主要 API 端点:

生成文本(Generate Text)

端点:POST /api/generate

功能:向模型发送提示词(prompt),并获取生成的文本。

请求格式:

{
  "model": "<model-name>",  // 模型名称
  "prompt": "<input-text>", // 输入的提示词
  "stream": false,          // 是否启用流式响应(默认 false)
  "options": {              // 可选参数
    "temperature": 0.7,     // 温度参数
    "max_tokens": 100       // 最大 token 数
  }
}

响应格式:

{
  "response": "<generated-text>", // 生成的文本
  "done": true                    // 是否完成
}

聊天(Chat)

端点:POST /api/chat

功能:支持多轮对话,模型会记住上下文。

请求格式:

{
  "model": "<model-name>",  // 模型名称
  "messages": [             // 消息列表
    {
      "role": "user",       // 用户角色
      "content": "<input-text>" // 用户输入
    }
  ],
  "stream": false,          // 是否启用流式响应
  "options": {              // 可选参数
    "temperature": 0.7,
    "max_tokens": 100
  }
}

响应格式:

{
  "message": {
    "role": "assistant",    // 助手角色
    "content": "<generated-text>" // 生成的文本
  },
  "done": true
}

列出本地模型(List Models)

端点:GET /api/tags

功能:列出本地已下载的模型。

响应格式:

{
  "models": [
    {
      "name": "<model-name>", // 模型名称
      "size": "<model-size>", // 模型大小
      "modified_at": "<timestamp>" // 修改时间
    }
  ]
}

拉取模型(Pull Model)

端点:POST /api/pull

功能:从模型库中拉取模型。

请求格式:

{
  "name": "<model-name>" // 模型名称
}

响应格式:

{
  "status": "downloading", // 下载状态
  "digest": "<model-digest>" // 模型摘要
}

3. 使用示例

生成文本

使用 curl 发送请求:

curl http://localhost:11434/api/generate -d '{
  "model": "deepseek-r1:1.5b",
  "prompt": "你好,你能帮我写一段代码吗?",
  "stream": false
}'

多轮对话

使用 curl 发送请求:

curl http://localhost:11434/api/chat -d '{
  "model": "deepseek-r1:1.5b",
  "messages": [
    {
      "role": "user",
      "content": "你好,你能帮我写一段 Python 代码吗?"
    }
  ],
  "stream": false
}'

列出本地模型

使用 curl 发送请求:

curl http://localhost:11434/api/tags

拉取模型

使用 curl 发送请求:

curl http://localhost:11434/api/pull -d '{
  "name": "deepseek-r1:1.5b"
}'

4. 流式响应

Ollama 支持流式响应(streaming response),适用于实时生成文本的场景。

##启用流式响应
在请求中设置 "stream": true,API 会逐行返回生成的文本。

curl http://localhost:11434/api/generate -d '{
  "model": "deepseek-r1:1.5b",
  "prompt": "你好,你能帮我写一段代码吗?",
  "stream": true
}'

响应格式

每行返回一个 JSON 对象:

{
  "response": "<partial-text>", // 部分生成的文本
  "done": false                 // 是否完成
}

5. 编程语言示例

Python 使用 requests 库与 Ollama API 交互:

import requests

# 生成文本
response = requests.post(
    "http://localhost:11434/api/generate",
    json={
        "model": "deepseek-r1:1.5b",
        "prompt": "你好,你能帮我写一段代码吗?",
        "stream": False
    }
)
print(response.json())

多轮对话:

response = requests.post(
    "http://localhost:11434/api/chat",
    json={
        "model": "deepseek-r1:1.5b",
        "messages": [
            {
                "role": "user",
                "content": "你好,你能帮我写一段 Python 代码吗?"
            }
        ],
        "stream": False
    }
)
print(response.json())

JavaScript 使用 fetch API 与 Ollama 交互:

// 生成文本
fetch("http://localhost:11434/api/generate", {
  method: "POST",
  headers: { "Content-Type": "application/json" },
  body: JSON.stringify({
    model: "deepseek-r1:1.5b",
    prompt: "你好,你能帮我写一段代码吗?",
    stream: false
  })
})
  .then(response => response.json())
  .then(data => console.log(data));

多轮对话:

fetch("http://localhost:11434/api/chat", {
  method: "POST",
  headers: { "Content-Type": "application/json" },
  body: JSON.stringify({
    model: "deepseek-r1:1.5b",
    messages: [
      {
        role: "user",
        content: "你好,你能帮我写一段 Python 代码吗?"
      }
    ],
    stream: false
  })
})
  .then(response => response.json())
  .then(data => console.log(data));

Ollama OpenAI API 交互

使用方法

OpenAI Python 库

from openai import OpenAI

client = OpenAI(
    base_url='http://localhost:11434/v1/',

    # required but ignored
    api_key='ollama',
)

chat_completion = client.chat.completions.create(
    messages=[
        {
            'role': 'user',
            'content': 'Say this is a test',
        }
    ],
    model='deepseek-r1:1.5b',
)

response = client.chat.completions.create(
    model="llava",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "What's in this image?"},
                {
                    "type": "image_url",
                    "image_url": "",
                },
            ],
        }
    ],
    max_tokens=300,
)

completion = client.completions.create(
    model="deepseek-r1:1.5b",
    prompt="Say this is a test",
)

list_completion = client.models.list()

model = client.models.retrieve("deepseek-r1:1.5b")

embeddings = client.embeddings.create(
    model="all-minilm",
    input=["why is the sky blue?", "why is the grass green?"],
)

OpenAI JavaScript 库

import OpenAI from "openai";

const openai = new OpenAI({
  baseURL: "http://localhost:11434/v1/",

  // required but ignored
  apiKey: "ollama",
});

const chatCompletion = await openai.chat.completions.create({
  messages: [{ role: "user", content: "Say this is a test" }],
  model: "deepseek-r1:1.5b",
});

const response = await openai.chat.completions.create({
  model: "llava",
  messages: [
    {
      role: "user",
      content: [
        { type: "text", text: "What's in this image?" },
        {
          type: "image_url",
          image_url:
            "",
        },
      ],
    },
  ],
});

const completion = await openai.completions.create({
  model: "deepseek-r1:1.5b",
  prompt: "Say this is a test.",
});

const listCompletion = await openai.models.list();

const model = await openai.models.retrieve("deepseek-r1:1.5b");

const embedding = await openai.embeddings.create({
  model: "all-minilm",
  input: ["why is the sky blue?", "why is the grass green?"],
});

curl

curl http://localhost:11434/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "deepseek-r1:1.5b",
        "messages": [
            {
                "role": "system",
                "content": "You are a helpful assistant."
            },
            {
                "role": "user",
                "content": "Hello!"
            }
        ]
    }'

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llava",
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "text",
            "text": "What'\''s in this image?"
          },
          {
            "type": "image_url",
            "image_url": {
               "url": ""
            }
          }
        ]
      }
    ],
    "max_tokens": 300
  }'

curl http://localhost:11434/v1/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "deepseek-r1:1.5b",
        "prompt": "Say this is a test"
    }'

curl http://localhost:11434/v1/models

curl http://localhost:11434/v1/models/deepseek-r1:1.5b

curl http://localhost:11434/v1/embeddings \
    -H "Content-Type: application/json" \
    -d '{
        "model": "all-minilm",
        "input": ["why is the sky blue?", "why is the grass green?"]
    }'

端点

/v1/chat/completions

支持的功能

[x] Chat completions
[x] 流式传输
[x] JSON 模式
[x] 可重复的输出
[x] 视觉
[x] 工具(流式传输支持即将推出)
[ ] 对数概率

支持的请求字段

[x] model
[x] messages
[x] 文本 content
[x] 图像 content
[x] Base64 编码的图像
[ ] 图像 URL
[x] content 部分的数组
[x] frequency_penalty
[x] presence_penalty
[x] response_format
[x] seed
[x] stop
[x] stream
[x] temperature
[x] top_p
[x] max_tokens
[x] tools
[ ] tool_choice
[ ] logit_bias
[ ] user
[ ] n

/v1/completions

支持的功能

[x] Completions
[x] 流式传输
[x] JSON 模式
[x] 可重复的输出
[ ] 对数概率

支持的请求字段

[x] model
[x] prompt
[x] frequency_penalty
[x] presence_penalty
[x] seed
[x] stop
[x] stream
[x] temperature
[x] top_p
[x] max_tokens
[x] suffix
[ ] best_of
[ ] echo
[ ] logit_bias
[ ] user
[ ] n

注意事项

prompt 目前仅接受字符串

/v1/models

注意事项

created 对应模型最后修改的时间
owned_by 对应 ollama 用户名,默认为 "library"

/v1/models/{model}

注意事项

created 对应模型最后修改的时间
owned_by 对应 ollama 用户名,默认为 "library"

/v1/embeddings

支持的请求字段

[x] model
[x] input
[x] 字符串
[x] 字符串数组
[ ] 令牌数组
[ ] 令牌数组的数组
[ ] encoding format
[ ] dimensions
[ ] user

模型

在使用模型之前,请将其拉取到本地 ollama pull:

ollama pull deepseek-r1:1.5b

默认模型名称

对于依赖默认 OpenAI 模型名称(如 gpt-3.5-turbo)的工具,使用 ollama cp 将现有模型名称复制到一个临时名称:

ollama cp deepseek-r1:1.5b gpt-3.5-turbo

之后,这个新的模型名称可以指定在 model 字段中:

curl http://localhost:11434/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "gpt-3.5-turbo",
        "messages": [
            {
                "role": "user",
                "content": "Hello!"
            }
        ]
    }'

设置上下文大小

OpenAI API 没有提供设置模型上下文大小的方法。如果你需要更改上下文大小,可以创建一个 Modelfile,其内容如下:

FROM <some model>
PARAMETER num_ctx <context size>

使用 ollama create mymodel 命令创建一个具有更新上下文大小的新模型。使用更新后的模型名称调用 API:

curl http://localhost:11434/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "deepseek-r1:1.5b",
        "messages": [
            {
                "role": "user",
                "content": "Hello!"
            }
        ]
    }
相关内容