V-JEPA:Meta推出的视觉模型,可以通过观看视频来学习理解物理世界 V-JEPA是由Meta的研究人员推出的一种新型的视频自监督学习方法,它专注于通过特征预测来学习视频的视觉... AI工具# 2周前000
Boximator - 字节推出的控制视频生成中对象运动的框架 Boximator是有字节跳动的研究团队开发的一种视频合成技术,旨在生成丰富且可控的运动,以增强视频合成的... AI工具# 2周前000
DiT - 基于Transfomer架构的扩散模型 DiT(Diffusion Transformers)是一种新型的扩散模型,由William Peebles(Sora的研发负责人之一) 与纽... AI工具# # AI 2周前010
VideoPoet - 谷歌推出的AI视频生成模型 VideoPoet是由谷歌的研究团队开发的一种基于大模型的AI视频生成方案,支持从文本、图像或视频输入中合成... AI工具# # AI 2周前020
SDXL-Lightning – 字节跳动推出的文本到图像生成模型 SDXL-Lightning是由字节跳动的研究团队推出的一种基于扩散模型的文本到图像生成技术,旨在解决传统扩散... AI工具# 2周前020
Stable Diffusion 3 - Stability AI推出的新一代图像生成模型 Stable Diffusion 3 是由 Stability AI 开发的一款先进的文本到图像生成模型,是 Stable Diffusion 系列... AI工具# # AI 2周前000
ConsiStory - 免训练实现主题一致性的文生图方法 ConsiStory是由NVIDIA和特拉维夫大学的研究人员共同开发的一种无需训练的文本生成图像的方法,可以实现... AI工具# 2周前000
ScreenAgent - 基于视觉语言模型的计算机控制智能体 ScreenAgent是一个由吉林大学人工智能学院的研究团队开发的计算机控制智能体,该智能体是基于视觉语言模... AI工具# 2周前020
GPT-SoVITS - 开源的声音克隆项目,只需少量数据即可合成声音 GPT-SoVITS是一个开源的声音克隆项目,该语音合成工具结合了GPT模型和SoVITS变声器技术,仅需通过少量的... AI工具# # AI 2周前020