Flex3D – Meta GenAI和牛津大学共同推出的两阶段3D生成框架 Flex3D是由Meta的GenAI团队和牛津大学研究团队推出的创新的两阶段3D生成框架,能基于任意数量的高质量输入视图,解决从文本、单张图片或稀疏视图图像生成高质量3D内容的挑战。第一阶段,基于微调... AI项目框架# # AI 4个月前060
OneDiffusion – 无缝支持双向图像合成和理解的开源扩散模型 OneDiffusion是AI2推出的多功能大规模扩散模型,能无缝支持双向图像合成和理解,涵盖文本到图像生成、条件图像生成、图像理解等多种任务。基于将所有条件和目标图像建模为序列“视图”训练,实现在推... AI项目框架# # AI 4个月前060
Find3D – 加州理工学院推出的3D部件分割模型 Find3D是加州理工学院推出的3D部件分割模型,能根据任意文本查询分割任意对象的任何部分。Find3D用一个强大的数据引擎自动从互联网上的3D资产生成训练数据,并用对比训练方法训练一个可扩展的3D模... AI项目框架# # AI 4个月前060
CodeDPO – 北京大学联合字节共同推出的代码生成优化框架 CodeDPO是北京大学与字节跳动合作推出的代码生成优化框架,能提升代码模型在正确性和效率方面的表现。框架基于自生成和验证机制,同时构建和评估代码及其测试用例,用PageRank算法迭代更新代码片段的... AI项目框架# 4个月前060
HiFiVFS – 腾讯联合VIVO推出的高保真视频换脸框架 HiFiVFS(High Fidelity Video Face Swapping)是腾讯和VIVO公司推出的高保真视频换脸框架,HiFiVFS基于Stable Video Diffusion(SVD... AI项目框架# 4个月前060
Motion Prompting – 谷歌联合密歇根和布朗大学推出的运动轨迹控制视频生成模型 Motion Prompting是 Google DeepMind、密歇根大学和布朗大学联合推出的视频生成技术,基于运动轨迹(motion trajectories)控制和引导视频内容的生成。Moti... AI项目框架# 4个月前060
Fish Speech 1.5 – Fish Audio 推出的语音合成模型,支持13种语言 Fish Speech 1.5 是Fish Audio 推出的文本到语音(TTS)模型,基于深度学习技术如Transformer、VITS、VQVAE和GPT等。Fish Speech 1.5支持英语... AI项目框架# # AI 4个月前060
MEMO – 音频驱动的生成肖像说话视频框架,保持身份一致性和表现力 MEMO(Memory-Guided EMOtionaware diffusion)是Skywork AI、南洋理工大学和新加坡国立大学推出的音频驱动肖像动画框架,用在生成具有身份一致性和表现力的说话... AI项目框架# # AI 4个月前060
NVILA – 英伟达推出的视觉语言大模型 NVILA是NVIDIA推出的系列视觉语言模型,能平衡效率和准确性。模型用“先扩展后压缩”策略,有效处理高分辨率图像和长视频。NVILA在训练和微调阶段进行系统优化,减少资源消耗,在多项图像和视频基准... AI项目框架# 4个月前060
Florence-VL – 微软和马里兰大学共同开源的多模态大语言模型 Florence-VL是创新的多模态大型语言模型(MLLMs),是马里兰大学和微软研究院共同推出的。Florence-VL用生成式视觉基础模型Florence-2丰富视觉表示,能捕捉图像的不同层次和方... AI项目框架# 4个月前060