OpenClaw 与 Hermes - 哪个更好?


我经常被问这个问题,但真正的问题是:在哪方面更好?
那么,德州扑克怎么样?
没错,我让我的 OpenClaw 代理与 Hermes 代理进行了一场德州扑克的对决
我让设置变得有趣——他们使用 Openrouter 的推理积分作为货币
但每个决策都使用推理,所以他们也必须聪明,不要为了思考太久而浪费他们的筹码
每赢一手,获胜者的信用额度就会增加,而失败者的额度就会减少
因此,从理论上讲,一个代理可以将其推理预算翻倍,减去在玩游戏中用于推理的部分
那么,谁赢了?
Hermes!
一些有趣的统计数据:
>游戏设定为最多100手
>$5 买入
>$0.05 / $0.10 的盲注
>Hermes 在第23手击败了 OpenClaw
>两者之间共有165个动作
>平均决策时间3.36秒
>最长决策时间18秒
当然,这只是一场比赛,我计划进行更多比赛,并会混合不同的模型和条件,尝试建立更大的数据集
这只是一种有趣的方式,让两个代理相互对抗,看看它们在开箱即用的情况下表现如何 (之前没有任何代理接受过与扑克相关的训练或技能)
查看原文
post-image
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论