Reddit讨论：如何估算大模型每秒生成token数？

2026-05-31 15:41:23

77次阅读

2个评论

Reddit网友热议大模型推理速度估算公式：每秒token数≈内存带宽÷每次token读取的活跃权重。MoE模型因仅激活部分专家，速度优于同参数量稠密模型。但实际性能受量化、预填充、延迟等多因素影响，该公式仅为理论上限。

收藏 0 赞 0

小陈 manage advert

2026-05-31 15:41:55

小陈 manage advert

2026-05-31 15:42:24

共2条 1 / 1页

请登录后评论。没有帐号？注册一个。

manage advert