Ollama 与 MLX:在 Apple Silicon 上本地运行大语言模型的全新体验
Ollama 与 MLX:在 Apple Silicon 上本地运行大语言模型的全新体验 最近在模型调用经常遇到限流问题,导致任务频繁失败,模型商的coding plan价格实在是不便宜,于是准备在本地mac部署ollama的小模型,然后给任务能力要求不高的场景使用。 标签:#AppleSilicon #MLX #Ollama #本地LLM# #AI开发 我本地部署以Qwen微调的模型为主,毕竟内存有限 1. 背景 在过去两年里,本地大语言模型(LLM)在开发者社区迅速兴起。 LM Studio 通过 GGUF、MLX 等格式让 Mac 用户能够离线跑模型。 Ollama 则以轻量的 CLI / API 为核心,强调易于集成的开发者体验。 2024 年 Apple 推出 MLX 框架后,Ollama 在 2026 年完成了对 MLX 的深度集成,并针对 M5 系列(M5、M5 Pro、M5 Max) 进行专门优化,配合 NVFP4 量化格式,显著提升了在 Apple Silicon 上的推理性能与效率。 2. 什么是 MLX? 特性 说明 Python‑first import mlx 即可使用,无需写 Metal 代码。 硬件感知 自动在 CPU、GPU、Apple Neural Engine 之间调度。 即时编译 JIT 编译把算子映射到 Metal GPU/Neural Engine,延迟低、内存占用小。 模型兼容 支持 ONNX、PyTorch (torch.save) 与 Core ML (.mlmodel)。 微调 API mlx.train、mlx.optim 等高层 API,适合设备端微调。 隐私本地化 所有计算均在本机完成,数据不离网。 示例(在 macOS 终端) ...