GPT-4V都考不过？基于大学水平考试的多模态AI测试基准MMMUs发布(gpt43)

来源：网络　浏览：51次　时间：2023-12-01

12月1日消息:近日，一项基于大学水平考试的多模态AI测试基准MMMUs发布，旨在评估机器在广泛多样的任务上的专家级多模态理解和推理能力。这一基准对当前最先进的GPT-4V等模型提出挑战，通过涵盖艺术与设计、商科、科学、健康与医学、人文与社会科学、技术与工程等六个学科的30个科目，共有1.15万个问题，考察了感知、知识和推理等基本技能。

论文地址:https://arxiv.org/abs/2311.16502

项目网站:https://mmmu-benchmark.github.io/

数据集:https://huggingface.co/datasets/MMMU/MMMU

代码:https://github.com/MMMU-Benchmark/MMMU

MMMUs的问题涵盖了大学考试、测验和教科书，由50位来自不同学科的大学生收集，涉及了多种图像格式，从照片和绘画到图表和表格。这使得该基准不仅考察了常识和日常知识，还注重专业领域知识和高级推理。此外，MMMUs具有文本和图像混合的输入，要求AI模型在处理这种混合信息时展现深度学科知识和执行复杂推理的能力。

在实验评估中，MMMUs展现出极大的难度，即使是当前最先进的GPT-4V也仅在55.7%的问题上取得准确答案，表明AI技术在这一领域仍有巨大的改进空间。通过这一基准的构建和评估，研究团队为进一步推动人工智能系统的发展和深入研究提供了有力的工具和参考。

总体而言，MMMUs作为一项全面、具有挑战性的多模态AI测试基准，为评估专家级AGI的发展提供了新的视角和标准。这将有助于推动人工智能领域的发展，引领未来人工智能系统在多学科、多模态任务上取得更为卓越的成就。

上一篇： Pic Copilot官网体验入口电商做图AI免费软件app下载(pilot store)
下一篇： krea AI推出实时增强功能支持将实时绘制的图像二次放大

推荐站点

88分类目录
88分类目录专业提供网站网址免费提交收录,88分类目录是采用开放导航式的网站大全,收录国内外各行业优秀的网站网址,让网站在各大搜索引擎收录快排名靠前。
www.88dir.com
零目录
零目录（www.dir0.com）专业的网站分类目录平台！为您提供网站分类目录索引及网址大全库的建立，是目前较为专业的网站分类目录平台，为用户打造大型正规分类目录网，提供高效便捷的网址存储和查询服务的分类目录网站。
www.dir0.com
YY分类目录
YY分类目录全人工编辑的开放式网站分类目录，收录国内外、各行业优秀网站，旨在为用户提供网站分类目录检索、优秀网站参考、网站推广服务。
www.yydir.com
名人百科网
名人百科网(mrenbaike.net)--为大家提供各行各业的名人资料、资讯、图片等,致力于打造国内专业的名人百科平台！
www.mrenbaike.net
菜鸟教程
菜鸟教程提供了基础编程技术教程。菜鸟教程的 Slogan 为：学的不仅是技术，更是梦想！记住：再牛逼的梦想也抵不住傻逼似的坚持！本站域名为 runoob.com, runoob 为 Running Noob 的缩写，意为：奔跑吧！菜鸟。本站包括了HTML、CSS、Javascript、PHP、C、Python等各种基础编程教程。同时本站中也提供了大量的在线实例，通过实例，您可以更好地学习如何建站。本站致力于推广各种编程语言技.
www.runoob.com
中国社会公益网
陕西省社会公益基金会是经陕西省民政厅批准的公募基金会，下设秘书处、公益项目部、筹款募捐部、宣传策划部、社会活动部、专项基金部、资金管理部、公关联络部、青年志愿者工作委员会、青年志愿者爱心乐团等部门机构
www.cpf.net.cn
CNMO科技新媒体
CNMO=Connect More,致力于通过内容成为人与科技、人与产品、人与品牌、人与服务对接的桥梁,让产业、产品的价值与服务得到专业且有趣的解读和适配,引领用户畅享科技带来的美好生活!
www.cnmo.com
国外主机测评
国外主机测评，国外VPS、云服务器，国外服务器，国外主机的相关优惠信息、商家背景、网络带宽、线路走法、售前和售后技术支持等，是目前最好的一家国外主机评测平台。
www.zhujiceping.com
赵容部落
赵容部落，一个收集国内，国外便宜主机，VPS，云服务器，独立服务器优惠促销信息，提供VPS新手教程，VPS评测，VPS代购代付服务的博客。
www.zrblog.net

GPT-4V都考不过？基于大学水平考试的多模态AI测试基准MMMUs发布(gpt43)

推荐文章

推荐站点