Colab上运行Gemma 3 Ollama：开发者快速入门指南

显示全部楼层

是否曾幻想过在单块GPU上运行顶尖（SoTA）模型？

谷歌最新发布的Gemma 3正在突破语言模型的性能边界，而Ollama正助力开发者快速上手语言模型。

本指南将通过实战演示，在Google Cloud Colab Enterprise环境中将Gemma 3的强大功能与Ollama的简易操作相结合。

您将了解如何在Colab笔记本的单GPU环境下高效部署谷歌这一模型——除了基础文本生成外，本文还将探索启用多模态能力（输入图像）和利用响应流式传输实现交互应用等实用技巧。

无论您是准备开发下一代AI工具原型，还是单纯对前沿AI技术平民化感兴趣，都可跟随本指南快速入门。

为什么选择Gemma 3？

Gemma 3的卓越之处在于，它是一款开源模型，却提供了顶尖（SoTA）性能。

它还迈入了多模态领域，现在能够理解视觉-语言输入（即同时处理图像和文本）并生成文本输出。其关键特性包括：

超长上下文窗口：支持128k token，可处理更长的上下文信息
多语言理解：涵盖140多种语言
性能增强：在数学计算、逻辑推理和对话能力方面表现更优
结构化输出与函数调用：便于开发复杂应用
官方量化版本：减小模型体积和计算需求，同时保持高精度，让更多开发者无需超级计算机也能运行强大模型

来看看Gemma 3各版本的体积差异吧：

如下图所示，在Chatbot Arena Elo评分中可以看到，Gemma 3作为一款开源模型，不仅具备顶尖（SoTA）性能，还能在单块GPU上运行，大大降低了开发者的使用门槛。

为什么选择Ollama？

传统大型语言模型（LLM）的部署和运行往往令人头疼——复杂的依赖关系、资源消耗巨大的模型。

Ollama彻底消除了这些障碍。

这意味着开发者可以更快速地在各类环境中实验Gemma等开源模型，无论是开发机、服务器，还是像Google Cloud Colab Enterprise这样的云端实例。

这种简化的方式让开发者能够摆脱常规束缚，更高效地迭代和探索各类开源模型。

Gemma 3在Ollama平台上提供全部四个规格版本：

• 10亿参数模型：ollama run gemma3:1b

• 40亿参数模型：ollama run gemma3:4b

• 120亿参数模型：ollama run gemma3:12b

• 270亿参数模型：ollama run gemma3:27b

开发者只需一行命令就能拉取模型并开始交互，极大降低了实践探索LLM的入门门槛。下面让我们看看如何在几分钟内快速上手。

快速入门：在云端配置Colab环境

首先需要搭建Colab开发环境，您有两种可选方案：

1. Vertex AI Google Colab Enterprise（推荐方案）

使用Vertex AI Colab Enterprise自定义运行时是理想的起步选择。该方案具有以下优势：

灵活加速器选择：可为大型模型或计算密集型任务配置A100/H100等高性能GPU
企业级安全：内置专业级安全防护功能

配置自定义运行时的步骤：

定义运行时模板：指定硬件需求（如选择A100 GPU）
创建运行时实例：基于模板生成实例
连接笔记本：将开发环境接入专属运行时

2. 使用Google Colab（免费版）

对于快速原型设计和入门学习，免费版Google Colab是绝佳选择。虽然其GPU选项比Colab Enterprise更有限（除非连接Google Cloud运行时），但仍能为大多数常规任务提供足够算力，包括运行中等规模的Gemma 3模型。

Google Colab配置步骤：

启动Colab：访问Google Colab并创建新笔记本
配置GPU运行时：

点击顶部菜单栏的"Runtime"（运行时）
选择"Change runtime type"（更改运行时类型）
在"Hardware accelerator"（硬件加速器）下拉菜单中选择"T4 GPU"
点击"Save"（保存），Colab可能会重启运行时以应用更改——这完全正常！

运行Gemma 3 + Ollama全攻略

环境配置完毕，现在让我们启动Ollama运行Gemma 3。Ollama让这个过程变得异常简单，下面分步骤详解：

1. 安装必要依赖

在Colab中直接安装Ollama可能会触发警告。通过安装以下工具包即可解决：

pciutils：PCI设备检测工具
lshw：硬件清单查看工具

这些硬件检测工具能有效解决兼容性问题。

! sudo apt update && sudo apt install pciutils lshw

2. 安装Ollama

执行以下命令获取并运行Ollama安装脚本，该脚本将在Colab实例中完成Ollama服务的下载和配置：

!curl -fsSL https://ollama.com/install.sh | sh

此脚本将自动完成Ollama的本地化安装。

3. 启动本地Ollama服务

现在我们需要在后台启动Ollama服务进程。通过以下命令实现：

使用nohup保持进程持续运行
将输出重定向至ollama.log日志文件
&符号实现后台运行
确保即使初始连接中断服务仍可持续运行

!nohup ollama serve > ollama.log 2>&1 &

注意：执行此单元后请等待数秒，待服务完全初始化后再继续后续操作。

4. 运行Gemma 3模型

当Ollama服务正常运行后，就可以开始主操作了。让我们用简单的提示语来运行Gemma 3 12B模型：

! ollama run gemma3:12b"What is the capital of the Netherlands?"

重要提示：首次运行特定模型（如gemma3:12b）时，Ollama需要下载模型权重文件。下载时间取决于模型大小和网络速度，后续运行会快很多。命令解析：

ollama run gemma3:12b：指示Ollama运行指定模型
"What is the capital of the Netherlands?"：发送给模型的提示语。

运行状态说明：

加载模型时可能会看到旋转符号（如⠙ ⠹ ⠸…），这是正常的数据处理过程
成功运行后输出示例：

⠙ ⠹ ⠸ ⠼ ⠴ ⠦ ⠧ ⠇ ⠏ ⠏ ⠙ ⠹ ⠸ ⠼ ⠴ ⠴ ⠦ ⠧ ⠇ ⠏ ⠋ ⠙ ⠹ ⠸ ⠼ ⠴ ⠦ ⠧ ⠇ ⠏ ⠋ ⠙ ⠸ ⠸ ⠼
The capital of the Netherlandsis**Amsterdam**.
However, it's a bit complicated!
While Amsterdam is the capital and the largest city, **The Hague (Den Haag)**
is the seat of the government
and home to the Supreme Court and other important institutions.
So, it depends on what you mean by "capital."

如果您的硬件配置允许（特别是在Colab Enterprise环境中），可以尝试参数规模更大的27B版本，只需将命令中的gemma3:12b替换为gemma3:27b即可。

⚠️ 请注意：

27B模型对计算资源的需求显著提升
建议仅在配备高性能GPU（如A100/H100）的环境中使用
首次运行时的模型下载时间会更长

探索Gemma 3的多模态能力

Gemma 3最出色的特点是引入了多模态支持，能够处理视觉-语言输入并生成文本输出。

图像会被标准化为896 x 896分辨率，并编码为每张256个token。下面我们来看看如何通过Gemma 3和Ollama实现多模态功能。

在Colab中配合Ollama使用的步骤如下：

上传图片：通过Colab文件面板上传图像（例如picture.png）。

运行并指定图像路径：直接在提示语中包含上传图像的路径。

!ollama run gemma3:12b"Describe what's happening in this image: /content/picture.png"

提示：当Ollama成功加载图像时，会输出类似Added image '/content/picture.png'的提示信息。如果图像分析失败，请仔细检查文件路径是否正确！

在 Python 中使用 Gemma 3

虽然命令行交互适合测试，但在实际开发中，你可能更希望通过编程方式调用 Gemma 3。Ollama 的 Python 库让这一切变得非常简单。

安装

使用 pip 安装该库：

! pip install ollama

基础文本生成

以下是在 Python 脚本中生成文本的示例代码：

importollama


try:
  response = ollama.generate(
    model="gemma3:12b",
    prompt="What is Friesland?"
  )
  print(response["response"])


exceptExceptionase:
  print(f"An error occurred:{e}")
 # Optional: Check the ollama.log file for server-side issues

流式响应

对于较长的生成任务或交互式应用，逐 token 流式返回响应能显著提升用户体验：

importollama


try:
  client = ollama.Client()
  stream = client.generate(
    model="gemma3:12b",
    prompt="Explain the theory of relativity in one concise paragraph.",
    stream=True
  )


  print("Gemma 3 Streaming:")
 forchunkinstream:
    print(chunk['response'], end='', flush=True)
  print()# Newline after streaming finishes


exceptExceptionase:
  print(f"An error occurred during streaming:{e}")

输出效果可能如下所示：

构建简易聊天机器人

通过client.chat()方法的消息历史记录功能，可实现多轮对话交互。以下示例构建了一个基础命令行聊天界面：

importollama


try:
  client = ollama.Client()
  messages = []# Stores the conversation history


  print("Starting chat with Gemma 3 (type 'exit' to quit)")


 whileTrue:
    user_input = input("You: ")
   ifuser_input.lower() =='exit':
      print("Exiting chat.")
     break


   # Append user message to history
    messages.append({
     'role':'user',
     'content': user_input
    })


   # Get streaming response from the model
    response_stream = client.chat(
      model='gemma3:12b',
      messages=messages,
      stream=True
    )


    print("Gemma: ", end="")
    full_assistant_response =""
   # Process and print the streamed response
   forchunkinresponse_stream:
      token = chunk['message']['content']
      print(token, end='', flush=True)
      full_assistant_response += token
    print()# Newline after assistant finishes


   # Append assistant's full response to history
    messages.append({
     'role':'assistant',
     'content': full_assistant_response
    })


exceptExceptionase:
  print(f"\nAn error occurred during chat:{e}")

总结回顾

至此，您已掌握：

在Google Colab通过Ollama运行Gemma 3
通过命令行和Python与模型交互
处理文本和图像输入
构建流式响应和基础聊天应用

后续探索方向

本指南重点介绍了通过Ollama在Colab上运行Gemma 3。若您希望：

深入微调Gemma模型

☁️ 在Google Cloud基础设施上实现可扩展部署