kmeanskaran 的文章 - 登链社区

TA的文章 TA购买的 TA喜欢的 TA收藏的

该指南从工程视角全面梳理了大语言模型（LLM）的全栈技术，涵盖模型架构核心（如注意力机制、RoPE、SwiGLU）、训练与对齐策略（LoRA、DPO）、以及生产级推理优化方案（vLLM、KV缓存、PagedAttention）。文章强调在构建系统时如何平衡精度、延迟与成本，旨在指导工程师从底层原理走向实际的系统落地与性能调优。

大语言模型 Transformer 注意力机制模型微调量化推理优化

发布于 20小时前阅读(33) 点赞(0) ( 4 )