使用 Ollama 体验开源 LLM 模型 Gemma:7b（笔记本可跑）

如果你只想体验下 Gemma 7b 的问答效果，可以通过「方式一」给出的地址访问 Huggingface Chat，方式二为本地部署 Gemma，适合更进一步的测试和使用。

Gemma 2b 和 7b 区别在于模型的尺寸，2b 有 20+亿参数，7b 约为 70+亿参数，实际体验下来，7b 相比 2b 好很多。

我的测试环境是 Apple M2 16 GB，跑 7b 没压力，如果你的内存大些，可以尝试跑 7b 的完整版本 gemma:7b-instruct-fp16，17GB 大小

方式一：使用 Huggingface 提供的在线工具

地址：https://huggingface.co/chat?model=google/gemma-7b-it

再问一个：

方式二：本地 Ollama + Chat 客户端

在自己的电脑运行 Gemma 模型，推荐使用 Ollama

下载地址：https://ollama.com/download

安装后，就是右侧的那个小羊驼图标

接下来运行模型，打开终端，运行模型，首次运行会自动下载模型，根据网络环境可能会比较久

$ ollama run gemma:7b

下载后即可在命令行进行「交互式」提问，亲测 Gemma 7b 在 MacOS 上运行很快

使用 --verbose 参数可以输出更多的信息

另外 Gemma 占用内存情况如下

使用本地客户端

如果你参照了「方式二」部署本地服务，可以推荐使用 Chat 客户端来使用，交互会更加友好。

推荐 ChatBox 和 NextChat 客户端

首先要了解，Ollama 服务可以通过 API 接口使用模型，地址为 http://localhost:11434

访问 http://localhost:11434/api/tags 可以得到模型名称及信息。

ChatBox 使用 Gemma:7b 模型配置

使用效果：

NextChat 使用 Gemma:7b 模型配置

NextChat 即 ChatGPT-Next-Web，是基于 Web 应用打包的，所以会存在跨域问题。这里需要多设置一步。

$ launchctl setenv OLLAMA_ORIGINS "*"
$ launchctl setenv OLLAMA_HOST "0.0.0.0"

前文将 Ollama 作为 macOS 应用进行安装，环境变量需如上设置，而后重启 Ollama

If Ollama is run as a macOS application, environment variables should be set using launchctl: 1. For each environment variable, call launchctl setenv. 2. Restart Ollama application.

设置使用 Gemma

使用效果：

参考

Ollama FAQ