AI项目框架 | 第24页

Flex3D – Meta GenAI和牛津大学共同推出的两阶段3D生成框架

Flex3D是由Meta的GenAI团队和牛津大学研究团队推出的创新的两阶段3D生成框架，能基于任意数量的高质量输入视图，解决从文本、单张图片或稀疏视图图像生成高质量3D内容的挑战。第一阶段，基于微调...

AI项目框架 # # AI

4个月前

060

OneDiffusion – 无缝支持双向图像合成和理解的开源扩散模型

OneDiffusion是AI2推出的多功能大规模扩散模型，能无缝支持双向图像合成和理解，涵盖文本到图像生成、条件图像生成、图像理解等多种任务。基于将所有条件和目标图像建模为序列“视图”训练，实现在推...

AI项目框架 # # AI

4个月前

060

Find3D – 加州理工学院推出的3D部件分割模型

Find3D是加州理工学院推出的3D部件分割模型，能根据任意文本查询分割任意对象的任何部分。Find3D用一个强大的数据引擎自动从互联网上的3D资产生成训练数据，并用对比训练方法训练一个可扩展的3D模...

AI项目框架 # # AI

4个月前

060

CodeDPO – 北京大学联合字节共同推出的代码生成优化框架

CodeDPO是北京大学与字节跳动合作推出的代码生成优化框架，能提升代码模型在正确性和效率方面的表现。框架基于自生成和验证机制，同时构建和评估代码及其测试用例，用PageRank算法迭代更新代码片段的...

AI项目框架 #

4个月前

060

HiFiVFS – 腾讯联合VIVO推出的高保真视频换脸框架

HiFiVFS（High Fidelity Video Face Swapping）是腾讯和VIVO公司推出的高保真视频换脸框架，HiFiVFS基于Stable Video Diffusion（SVD...

AI项目框架 #

4个月前

060

Motion Prompting – 谷歌联合密歇根和布朗大学推出的运动轨迹控制视频生成模型

Motion Prompting是 Google DeepMind、密歇根大学和布朗大学联合推出的视频生成技术，基于运动轨迹（motion trajectories）控制和引导视频内容的生成。Moti...

AI项目框架 #

4个月前

060

Fish Speech 1.5 – Fish Audio 推出的语音合成模型，支持13种语言

Fish Speech 1.5 是Fish Audio 推出的文本到语音（TTS）模型，基于深度学习技术如Transformer、VITS、VQVAE和GPT等。Fish Speech 1.5支持英语...

AI项目框架 # # AI

4个月前

060

MEMO – 音频驱动的生成肖像说话视频框架，保持身份一致性和表现力

MEMO（Memory-Guided EMOtionaware diffusion）是Skywork AI、南洋理工大学和新加坡国立大学推出的音频驱动肖像动画框架，用在生成具有身份一致性和表现力的说话...

AI项目框架 # # AI

4个月前

060

NVILA – 英伟达推出的视觉语言大模型

NVILA是NVIDIA推出的系列视觉语言模型，能平衡效率和准确性。模型用“先扩展后压缩”策略，有效处理高分辨率图像和长视频。NVILA在训练和微调阶段进行系统优化，减少资源消耗，在多项图像和视频基准...

AI项目框架 #

4个月前

060

Florence-VL – 微软和马里兰大学共同开源的多模态大语言模型

Florence-VL是创新的多模态大型语言模型（MLLMs），是马里兰大学和微软研究院共同推出的。Florence-VL用生成式视觉基础模型Florence-2丰富视觉表示，能捕捉图像的不同层次和方...

AI项目框架 #

4个月前

060