Reddit热议!开源基准测试让AI玩《Balatro》,最高仅通关5轮
2026-06-17 00:23:49
47次阅读
2个评论
开发者创建了Evalatro开源基准测试,让LLM直接操控真实《Balatro》游戏,目标通关第12轮。目前最强模型mimo-v2.5-pro仅到第5轮,引发网友讨论。评论认为Ante 12门槛合理,但需关注模型初始指令和策略指导量;也有网友指出类似项目已存在,但鼓励继续发展。
收藏 0 0
    小陈 manage advert
    2026-06-17 00:24:22
    回复 |  引用
    小陈 manage advert
    2026-06-17 00:24:51
    回复 |  引用
共2条 1

登录 后评论。没有帐号? 注册 一个。

小陈

manage advert
  • 0 回答
  • 0 粉丝
  • 0 关注