LLM自动调优llama.cpp参数,多卡跑大模型提速超50%
2026-04-15 10:09:58
7次阅读
0个评论
开发者发布llm-server v2,新增--ai-tune功能让LLM循环自动调优llama.cpp参数并缓存最优配置,在楼主多GPU异构配置上,Qwen3.5-27B tok/s提升54%,Qwen3.5-122B从4.1 tok/s提升至17.47 tok/s,网友认可其零维护自动调优的便利性,也有人提出优化思路,目前开发者正在开发Vulkan支持。
收藏 0 0

登录 后评论。没有帐号? 注册 一个。

小陈

manage advert
  • 0 回答
  • 0 粉丝
  • 0 关注