再见设计师！COLE AI系统利用多模型联合生成高质量设计

来源：网络　浏览：58次　时间：2023-12-01

12月1日消息:近日，微软亚洲研究院和北京大学的研究人员联手开发了一款名为COLE的AI系统，旨在通过多个AI模型的联合工作，为用户提供可编辑的图形设计。COLE的名字来源于亨利·科尔，他被认为是1843年第一张图形化圣诞卡的创作者。

论文网址：https://arxiv.org/pdf/2311.16974.pdf

这一系统的独特之处在于，它不仅可以生成图像，还能够嵌入相关文本，使用户能够通过输入设计项目的概念，如“一张宣传即将举行的冬季假期音乐会的海报，上面有穿着暖和衣物的人在落雪中演奏乐器”，即可获得一张完整的设计。

COLE的背后是一组不同的AI模型，包括Meta的Llama2-13B、DeepFloyd IF、LLaVA1.5-13B以及GPT-4V，以及开源图形渲染器Skia。这些模型的组合是为了应对图形设计的复杂性以及在该领域主要格式（.SVG文件）上缺乏可用的训练数据。

与其它文本到图像生成器相比，如OpenAI的DALL-E3和Midjourney，COLE在设计生成方面取得了令人瞩目的效果。通过对互联网上10万张高质量原始图形设计图像的训练，COLE不仅能够生成清晰有序的图形设计，而且能够在图像内生成可编辑的文本和对象区块。

更值得一提的是，COLE生成的图像可在其框架内进行直接编辑，用户可以点击文本框更改显示的文本或字体，也可以输入新的提示以更改图像的不同视觉元素。这为用户提供了一种便捷的方式，避免了回到设计的起点进行整体修改或将图像导出到其他设计软件的繁琐步骤。

虽然COLE目前更像是一个框架而不是一个成熟的产品，但其研究团队在图形设计服务方面取得的结果令人惊叹。研究人员表示，COLE不仅在生成各种设计项目时表现出色，而且在可编辑性和灵活的编辑空间方面也达到了预期目标。

对于图形设计行业而言，COLE到底是威胁还是新工具呢?研究人员强调，他们设计COLE是为了生成具有可编辑字段的图像，以“在必要时允许用户进一步完善输出，整合人类专业知识”。这意味着图形设计的专业培训仍然对于从COLE框架中获得最佳结果是必要的。

然而，研究人员也指出，相比于其他文本到图像生成器，如他们明确引用的DALL-E3，“我们的COLE系统…能够在只需要简单用户意图的情况下生成优质的图形设计图像。”这表明，研究人员认为COLE有可能让那些没有图形设计培训或专业知识的人能够生成与专业设计师媲美的高质量设计。

尽管目前COLE尚未公开提供，但研究人员表示他们的Github项目网页上将很快发布演示版本，使更多人能够了解和体验这一引人注目的图形设计生成框架。

推荐文章