Reddit热议！开源基准测试让AI玩《Balatro》，最高仅通关5轮

2026-06-17 00:23:49

47次阅读

2个评论

开发者创建了Evalatro开源基准测试，让LLM直接操控真实《Balatro》游戏，目标通关第12轮。目前最强模型mimo-v2.5-pro仅到第5轮，引发网友讨论。评论认为Ante 12门槛合理，但需关注模型初始指令和策略指导量；也有网友指出类似项目已存在，但鼓励继续发展。

收藏 0 赞 0

小陈 manage advert

2026-06-17 00:24:22

小陈 manage advert

2026-06-17 00:24:51

共2条 1 / 1页

请登录后评论。没有帐号？注册一个。

manage advert