Ollama 与 MLX：在 Apple Silicon 上本地运行大语言模型的全新体验

Sat, 18 Apr 2026 09:00:00 +0800

最近在模型调用经常遇到限流问题，导致任务频繁失败，模型商的coding plan价格实在是不便宜，于是准备在本地mac部署ollama的小模型，然后给任务能力要求不高的场景使用。

标签：#AppleSilicon #MLX #Ollama #本地LLM# #AI开发

我本地部署以Qwen微调的模型为主，毕竟内存有限

在过去两年里，本地大语言模型（LLM）在开发者社区迅速兴起。

2024 年 Apple 推出 MLX 框架后，Ollama 在 2026 年完成了对 MLX 的深度集成，并针对 M5 系列（M5、M5 Pro、M5 Max） 进行专门优化，配合 NVFP4 量化格式，显著提升了在 Apple Silicon 上的推理性能与效率。

特性	说明
Python‑first	`import mlx` 即可使用，无需写 Metal 代码。
硬件感知	自动在 CPU、GPU、Apple Neural Engine 之间调度。
即时编译	JIT 编译把算子映射到 Metal GPU/Neural Engine，延迟低、内存占用小。
模型兼容	支持 ONNX、PyTorch (`torch.save`) 与 Core ML (`.mlmodel`)。
微调 API	`mlx.train`、`mlx.optim` 等高层 API，适合设备端微调。
隐私本地化	所有计算均在本机完成，数据不离网。

示例（在 macOS 终端）

Apple Silicon on MakeMoney