作者详细介绍了如何在16GB内存的Mac Mini上,利用内存映射(mmap)和混合专家模型(MoE)架构成功运行35B参数的AI模型,并构建了一个结合本地和云端模型的AI代理三层路由系统。文章分享了从Qwen切换到Gemma 4的基准测试结果、优化技巧及详细设置教程。