美图奇想大模型 – 美图公司推出的AI视觉大模型

美图奇想大模型是什么

美图奇想大模型（MiracleVision）是美图公司推出的一款AI视觉大模型，专注于美学创作，包括东方美学、人像和商业设计等。模型完成了视频生成能力的全面升级，能生成1分钟、每秒24帧、1080P分辨率的高质量视频，显著提升视频的画质、流畅性和真实性。升级后的模型在美图旗下的产品如美图秀秀、美颜相机、Wink等应用中使用，将逐步推广到其他产品，如开拍、美图设计室、WHEE、MOKI等。美图公司在AI领域的进一步发展，提升了用户的视觉体验，提高了工作流的效率，在电商、广告、游戏、动漫和影视行业中具有应用潜力。

美图奇想大模型的主要功能

图像和视频生成：生成多种风格和类型的图像及视频，如动物摄影、平面商插、数字渲染、Q版卡通、数字3D、动漫游戏、广告摄影、电商广告、概念艺术、工业设计、概念设计、影视游戏、人像美容、装置艺术、人像摄影及手工艺品等。
文生图和图生图：输入文字或图像智能生成创作图，提供多种风格和丰富的可调参数，实现精准画面控制。
视频生成能力：支持生成长达1分钟、每秒24帧、1080P分辨率的高质量视频，提升视频的画质、流畅性和真实性。
AI画面扩展：让作品尺寸更大、细节更丰富。
局部修改：对部分画面进行精准修改与调整。
分辨率提升：支持生成高清大图，使细节表现、色彩展示、物体辨识更加精准和生动。

美图奇想大模型的技术原理

深度学习与视觉Transformer：基于深度学习技术进行图像和视频的生成，采用视觉Transformer架构，结合自注意力机制和位置编码捕捉图像中的全局和局部信息。
自注意力机制：通过自注意力机制，模型能关注输入数据中的重要部分，并计算同一序列的表示，扩大图像的感受野，获取更多上下文信息。
位置编码：用位置编码添加序列中每个元素的位置信息，使模型能理解图像中元素的位置关系。
美学评估系统：整合美学评估系统，通过机器学习提升模型的美学表现力和创作能力。
数据集优化：与外部设计师合作构建高质量的数据集，优化模型在美学上的表现。
视频生成能力：采用Diffusion与Transformer模型结合的技术路线，使用DiT视频生成架构，解决主体一致性、运动连贯性、物理逻辑合理性等视频生成能力落地的核心问题。