LLM自动调优llama.cpp参数，多卡跑大模型提速超50%

2026-04-15 10:09:58

7次阅读

0个评论

开发者发布llm-server v2，新增--ai-tune功能让LLM循环自动调优llama.cpp参数并缓存最优配置，在楼主多GPU异构配置上，Qwen3.5-27B tok/s提升54%，Qwen3.5-122B从4.1 tok/s提升至17.47 tok/s，网友认可其零维护自动调优的便利性，也有人提出优化思路，目前开发者正在开发Vulkan支持。

收藏 0 赞 0

请登录后评论。没有帐号？注册一个。

小陈

manage advert

0 回答
0 粉丝
0 关注