字节跳动与中科大联手提出多模态文档大模型DocPedia(字节跳动科技有限公司和字节跳动的区别)

来源：网络　浏览：40次　时间：2023-12-05

12月4日消息:字节跳动与中国科学技术大学合作研发的多模态文档大模型DocPedia已成功突破了分辨率的极限，达到了2560×2560的高分辨率。这一成果是通过研究团队采用了一种新的方法，解决了现有模型在解析高分辨文档图像方面的不足。

在此研究中，提出了DocPedia，一个高分辨率多模态文档大模型，与业内先进模型相比，其分辨率明显提高，达到2560×2560，而其他模型的上限仅为336×336，无法解析高分辨率文档图像。

论文地址:https://arxiv.org/pdf/2311.11810.pdf

DocPedia的性能得到了显著提升，尤其在关键信息抽取和视觉问答方面的能力上。通过论文中的示例展示，DocPedia能够理解高分辨率文档图像和自然场景图像中的指令内容，并准确提取相关的图文信息。这包括了从图像中挖掘车牌号、电脑配置等文本信息，甚至对手写文字的准确判断。

结合图像中的文本信息，DocPedia还可以利用其大模型推理能力，根据上下文分析问题，并回答图像中没有展示的扩展内容。

在DocPedia的训练过程中，研究团队采用了两个阶段的方法:预训练和微调。在预训练阶段，大语言模型的视觉编码器部分被优化，以使其输出与大语言模型对齐。这一阶段主要注重对感知能力的训练，包括文字和自然场景的感知。微调阶段涉及整个模型的端到端优化，并采用感知-理解联合训练策略，进一步提高了DocPedia的性能。

特别值得注意的是，DocPedia从频域的角度出发解决分辨率问题。通过提取高分辨率文档图像的DCT系数矩阵，并在不损失图文信息的前提下进行空间分辨率下采样，通过级联的频域适配器进一步进行分辨率压缩和特征提取。这种方法在将图像输入到视觉编码器之前，大大减少了token数量，提高了效率。

总体而言，DocPedia在多模态文档大模型领域取得了显著的突破，其高分辨率和优化训练策略使其在各项测试基准上均表现出色。该研究为推动多模态文档理解领域的发展提供了有力的支持。

推荐站点

88分类目录
88分类目录专业提供网站网址免费提交收录,88分类目录是采用开放导航式的网站大全,收录国内外各行业优秀的网站网址,让网站在各大搜索引擎收录快排名靠前。
www.88dir.com
零目录
零目录（www.dir0.com）专业的网站分类目录平台！为您提供网站分类目录索引及网址大全库的建立，是目前较为专业的网站分类目录平台，为用户打造大型正规分类目录网，提供高效便捷的网址存储和查询服务的分类目录网站。
www.dir0.com
YY分类目录
YY分类目录全人工编辑的开放式网站分类目录，收录国内外、各行业优秀网站，旨在为用户提供网站分类目录检索、优秀网站参考、网站推广服务。
www.yydir.com
名人百科网
名人百科网(mrenbaike.net)--为大家提供各行各业的名人资料、资讯、图片等,致力于打造国内专业的名人百科平台！
www.mrenbaike.net
菜鸟教程
菜鸟教程提供了基础编程技术教程。菜鸟教程的 Slogan 为：学的不仅是技术，更是梦想！记住：再牛逼的梦想也抵不住傻逼似的坚持！本站域名为 runoob.com, runoob 为 Running Noob 的缩写，意为：奔跑吧！菜鸟。本站包括了HTML、CSS、Javascript、PHP、C、Python等各种基础编程教程。同时本站中也提供了大量的在线实例，通过实例，您可以更好地学习如何建站。本站致力于推广各种编程语言技.
www.runoob.com
中国社会公益网
陕西省社会公益基金会是经陕西省民政厅批准的公募基金会，下设秘书处、公益项目部、筹款募捐部、宣传策划部、社会活动部、专项基金部、资金管理部、公关联络部、青年志愿者工作委员会、青年志愿者爱心乐团等部门机构
www.cpf.net.cn
CNMO科技新媒体
CNMO=Connect More,致力于通过内容成为人与科技、人与产品、人与品牌、人与服务对接的桥梁,让产业、产品的价值与服务得到专业且有趣的解读和适配,引领用户畅享科技带来的美好生活!
www.cnmo.com
国外主机测评
国外主机测评，国外VPS、云服务器，国外服务器，国外主机的相关优惠信息、商家背景、网络带宽、线路走法、售前和售后技术支持等，是目前最好的一家国外主机评测平台。
www.zhujiceping.com
赵容部落
赵容部落，一个收集国内，国外便宜主机，VPS，云服务器，独立服务器优惠促销信息，提供VPS新手教程，VPS评测，VPS代购代付服务的博客。
www.zrblog.net

字节跳动与中科大联手提出多模态文档大模型DocPedia(字节跳动科技有限公司和字节跳动的区别)

推荐文章

推荐站点