最近,Business Insider的Grace Kay发布了一篇详尽深入的报道,探讨了SpaceX收购的AI初创公司xAI的情况。据报道,特斯拉CEO埃隆·马斯克(Elon Musk)对员工提出了特别要求,希望提高聊天机器人在回答视频游戏相关问题的能力。
为了验证这一点,我们的资深RPG爱好者Ram Iyer制作了一份关于《博德之门》的五个一般性问题,分别与xAI以及ChatGPT、Claude和Gemini进行了对比测试。我们称之为BaldurBench。
首先传来的好消息是:xAI开发的聊天机器人Grok表现不错。虽然它的回答比较专业,使用了很多游戏术语(例如“save-scumming”代替“保存”、“DPS”代替“伤害输出”),但提供的信息既实用又有深度,前提是理解其用语。同时,Grok对表格和理论研究表现出极大的热情,这也在意料之中。
最大的惊喜是Claude,在回答问题时非常注意不要透露可能破坏玩家体验的信息。例如,在我询问关于队伍搭配的问题时,它附带提醒说“不要太在意,玩自己觉得有趣的角色就好。”
尽管报道指出xAI特别关注游戏领域的优化,但在这次测试中Grok的表现与其他主要模型相当,并未显示出明显的差距。
总的来说,这次对比表明即便在马斯克的直接介入下,xAI也未能显著超越其他主流AI模型。不过这些信息仍能为了解xAI的技术方向提供一些有价值的参考。
推荐意见