<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>Apple Silicon on MakeMoney</title>
    <link>https://funkygod.vip/tags/apple-silicon/</link>
    <description>Recent content in Apple Silicon on MakeMoney</description>
    <image>
      <title>MakeMoney</title>
      <url>https://funkygod.vip/%3Clink%20or%20path%20of%20image%20for%20opengraph,%20twitter-cards%3E</url>
      <link>https://funkygod.vip/%3Clink%20or%20path%20of%20image%20for%20opengraph,%20twitter-cards%3E</link>
    </image>
    <generator>Hugo -- 0.147.7</generator>
    <language>en</language>
    <lastBuildDate>Sat, 18 Apr 2026 09:00:00 +0800</lastBuildDate>
    <atom:link href="https://funkygod.vip/tags/apple-silicon/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>Ollama 与 MLX：在 Apple Silicon 上本地运行大语言模型的全新体验</title>
      <link>https://funkygod.vip/posts/ai/ollama-mlx-apple-silicon/</link>
      <pubDate>Sat, 18 Apr 2026 09:00:00 +0800</pubDate>
      <guid>https://funkygod.vip/posts/ai/ollama-mlx-apple-silicon/</guid>
      <description>&lt;h1 id=&#34;ollama-与-mlx在-apple-silicon-上本地运行大语言模型的全新体验&#34;&gt;Ollama 与 MLX：在 Apple Silicon 上本地运行大语言模型的全新体验&lt;/h1&gt;
&lt;blockquote&gt;
&lt;p&gt;最近在模型调用经常遇到限流问题，导致任务频繁失败，模型商的coding plan价格实在是不便宜，于是准备在本地mac部署ollama的小模型，然后给任务能力要求不高的场景使用。&lt;/p&gt;&lt;/blockquote&gt;
&lt;p&gt;&lt;strong&gt;标签&lt;/strong&gt;：#AppleSilicon #MLX #Ollama #本地LLM# #AI开发&lt;/p&gt;
&lt;p&gt;&lt;img loading=&#34;lazy&#34; src=&#34;https://funkygod.uk/1776477014720-dd24d8c1-1143-491f-b980-2f2d504557b0.png&#34;&gt;
我本地部署以Qwen微调的模型为主，毕竟内存有限&lt;/p&gt;
&lt;p&gt;&lt;img loading=&#34;lazy&#34; src=&#34;https://funkygod.uk/1776477117211-22ae5c9f-227a-4ccd-aae8-d9a043abd307.png&#34;&gt;&lt;/p&gt;
&lt;p&gt;&lt;img loading=&#34;lazy&#34; src=&#34;https://funkygod.uk/1776483308293-802f886f-d971-4fa2-982a-9481d03c6017.png&#34;&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;h3 id=&#34;1-背景&#34;&gt;1. 背景&lt;/h3&gt;
&lt;p&gt;在过去两年里，本地大语言模型（LLM）在开发者社区迅速兴起。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;LM Studio&lt;/strong&gt; 通过 GGUF、MLX 等格式让 Mac 用户能够离线跑模型。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Ollama&lt;/strong&gt; 则以轻量的 CLI / API 为核心，强调易于集成的开发者体验。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;2024 年 Apple 推出 &lt;strong&gt;MLX&lt;/strong&gt; 框架后，Ollama 在 2026 年完成了对 MLX 的深度集成，并针对 &lt;strong&gt;M5 系列（M5、M5 Pro、M5 Max）&lt;/strong&gt; 进行专门优化，配合 &lt;strong&gt;NVFP4&lt;/strong&gt; 量化格式，显著提升了在 Apple Silicon 上的推理性能与效率。&lt;/p&gt;
&lt;hr&gt;
&lt;h3 id=&#34;2-什么是-mlx&#34;&gt;2. 什么是 MLX？&lt;/h3&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;特性&lt;/th&gt;
          &lt;th&gt;说明&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;strong&gt;Python‑first&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;&lt;code&gt;import mlx&lt;/code&gt; 即可使用，无需写 Metal 代码。&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;strong&gt;硬件感知&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;自动在 CPU、GPU、Apple Neural Engine 之间调度。&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;strong&gt;即时编译&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;JIT 编译把算子映射到 Metal GPU/Neural Engine，延迟低、内存占用小。&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;strong&gt;模型兼容&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;支持 ONNX、PyTorch (&lt;code&gt;torch.save&lt;/code&gt;) 与 Core ML (&lt;code&gt;.mlmodel&lt;/code&gt;)。&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;strong&gt;微调 API&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;&lt;code&gt;mlx.train&lt;/code&gt;、&lt;code&gt;mlx.optim&lt;/code&gt; 等高层 API，适合设备端微调。&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;strong&gt;隐私本地化&lt;/strong&gt;&lt;/td&gt;
          &lt;td&gt;所有计算均在本机完成，数据不离网。&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;blockquote&gt;
&lt;p&gt;&lt;strong&gt;示例&lt;/strong&gt;（在 macOS 终端）&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
