Reddit讨论:如何估算大模型每秒生成token数?
2026-05-31 15:41:23
1次阅读
2个评论
Reddit网友热议大模型推理速度估算公式:每秒token数≈内存带宽÷每次token读取的活跃权重。MoE模型因仅激活部分专家,速度优于同参数量稠密模型。但实际性能受量化、预填充、延迟等多因素影响,该公式仅为理论上限。
收藏 0 0
    小陈 manage advert
    2026-05-31 15:41:55
    回复 |  引用
    小陈 manage advert
    2026-05-31 15:42:24
    回复 |  引用
共2条 1

登录 后评论。没有帐号? 注册 一个。

小陈

manage advert
  • 0 回答
  • 0 粉丝
  • 0 关注