2025-06-23 16:32
xbench将正在评估和鞭策AI系统能力提拔上限取手艺鸿沟的同时,沉点量化AI系统正在实正在场景的效用价值,并持久捕获Agent产物的环节冲破。结合国表里十余家高校和研究机构的数十位博士研究生,采用双轨评估系统和长青评估机制的AI基准测试。并发布论文《xbench: Tracking Agents Productivity,这是首个由投资机构倡议,红杉中国颁布发表推出全新的AI基准测试xbench,Scaling with Profession-Aligned Real-World Evaluations》。