Ollama 这款让大家能在电脑上本地运行 AI 模型的热门应用,刚刚发布了新版本。它用上了苹果自己的机器学习框架 MLX,在搭载 Apple 芯片的 Mac 上速度有了明显提升。
据 Ollama 官方说,新版本处理提示词的速度(prefill)大概快了 1.6 倍,而生成回复的速度(decode)几乎翻了一倍。尤其是搭载 M5 系列芯片的 Mac,受益最大,因为苹果新加入的 GPU Neural Accelerators 发挥了作用。
这次更新还优化了内存管理,以后长时间使用 AI 编程工具或者聊天助手时,会感觉明显更流畅、不卡顿。
Ollama 表示,这个性能提升对 macOS 用户特别友好,尤其是那些在用 OpenClaw 这样的个人助手,或者 Claude Code、OpenCode、Codex 这类编程 Agent 的朋友。
预览版已经可以下载了,版本号是 Ollama 0.19。不过需要你的 Mac 有超过 32GB 统一内存才能跑。目前只支持阿里巴巴的 Qwen3.5 模型,官方说后续会陆续加入更多 AI 模型的支持。






