AI巨头争锋《宝可梦》测试,揭秘AI实力新高度

27 1

AI巨头热衷于《宝可梦》测试,评估AI性能表现

据科技媒体Tom's Hardware报道,在众多AI性能评估方法中,一种以《宝可梦》游戏为载体的测试方法引起了广泛关注。谷歌、OpenAI和Anthropic等AI巨头纷纷让自家模型参与《宝可梦》游戏,以此评估AI的性能表现。

《宝可梦》游戏对AI具有挑战性

Anthropic公司AI部门负责人David Hershey表示,《宝可梦》游戏之所以能吸引机器学习社区的关注,是因为它不像《Pong》等简单游戏那样受限。这种游戏对电脑程序来说非常具有挑战性。

AI直播游戏成为新趋势

Hershey从去年开始在Twitch平台进行直播,每天用公司自产模型Claude玩《宝可梦》。这种AI直播游戏的做法也启发了不少自由开发者,他们陆续推出了“Gemini玩《宝可梦》”“GPT玩《宝可梦》”等类似的直播节目。

《宝可梦》游戏评估AI性能的优势

Hershey解释说,使用《宝可梦》游戏评估AI性能的优势在于,它为我们提供了直观的方法观察模型表现,还能用量化指标评估性能。

《宝可梦》游戏对AI的考验

在《宝可梦》系列游戏中,玩家需要升级、训练已有的宝可梦,还要打败道馆馆主来捕捉新的宝可梦。这种游戏流程并非线性,而是充满着判断和取舍。玩家还要经常在游戏中做出选择,是先冒险挑战强大的训练家以获取珍稀宝可梦,还是稳扎稳打造出一支实力均衡的队伍。

AI在游戏中的决策方式

显然,人类非常擅长做此类决策,这也是游戏的乐趣所在。但对于AI来说,这是一场关乎逻辑推理、风险评估以及长期规划能力的综合考验。研究人员会深入剖析AI在游戏里的决策方式,深入理解模型的能力边界。

AI玩《宝可梦》的结果分享

Hershey还会将AI玩《宝可梦》的结果分享给客户,以改进控制框架,帮助他们提升算力使用效率,让模型更高效运转。

AI巨头争锋《宝可梦》测试,揭秘AI实力新高度

评论列表
  1. Copper 回复
    AI巨头的宝可梦测试我试了试组队打道馆时AI反应超灵活真能看出AI实力新高度这体验还挺有意思的