谛韵DiffRhythm – 西北工业联合港中文推出的端到端音乐生成工具 DiffRhythm(中文名称:谛韵) 是西北工业大学与香港中文大学(深圳)联合开发的端到端音乐生成工具,基于潜扩散模型(Latent Diffusion)技术,能快速生成包含人声和伴奏的完整歌曲。用... AI项目框架 4周前040
OmniAlign-V – 上海交大联合上海 AI Lab 等推出的高质量数据集 OmniAlign-V 是上海交通大学、上海AI Lab、南京大学、复旦大学和浙江大学联合推出的专为提升多模态大语言模型(MLLMs)与人类偏好的对齐能力设计的高质量数据集。OmniAlign-V包含... AI项目框架 4周前030
Proxy Lite – 开源视觉语言模型,支持自动化网页任务 Proxy Lite 是开源的轻量级视觉语言模型(VLM),参数量为3B,支持自动化网页任务。Proxy Lite 能像人类一样操作浏览器,完成网页交互、数据抓取、表单填写等重复性工作,显著降低自动化... AI项目框架 4周前020
TrendPublish – AI内容发布工具,支持智能总结和自动发布 TrendPublish 是基于 AI 的趋势发现和内容发布系统。基于多源数据采集,从 Twitter/X、网站等渠道获取信息,用 DeepseekAI、千问等 AI 服务进行智能总结、关键信息提取和... AI项目框架 4周前060
WeGen – 中科大联合上海交大等推出的统一多模态生成模型 WeGen 是中国科学技术大学联合上海交通大学、微信团队、中国科学院等机构推出的统一多模态生成模型,基于自然对话实现多样化的视觉生成任务。WeGen结合多模态大语言模型(MLLM)和扩散模型,处理文本... AI项目框架 4周前020
DiffBrush – 北邮联合清华等机构推出的图像生成与编辑框架 DiffBrush是北京邮电大学、清华大学、中国电信人工智能研究所和西北工业大学推出的,无需训练的图像生成与编辑框架,支持用户基于手绘草图直观地控制图像生成。DiffBrush用预训练的文本到图像(T... AI项目框架# # AI 4周前050
Liquid – 华中科技、字节、港大联合推出的统一多模态生成框架 Liquid是华中科技大学、字节跳动和香港大学联合推出的极简统一多模态生成框架。基于VQGAN将图像编码为离散的视觉token,与文本token共享同一词汇空间,让大型语言模型(LLM)无需修改结构实... AI项目框架# 4周前020
X-Dancer – 字节等机构推出音乐驱动的人像舞蹈视频生成框架 X-Dancer 是字节跳动联合加州大学圣地亚哥分校和南加州大学的研究人员共同推出的音乐驱动的人像舞蹈视频生成框架,支持从单张静态图像生成多样化且逼真的全身舞蹈视频。X-Dancer结合自回归变换器... AI项目框架 4周前020
AVD2 – 清华联合复旦等机构推出的自动驾驶事故视频理解与生成框架 AVD2(Accident Video Diffusion for Accident Video Description)是清华大学联合香港科技大学、吉林大学、南京理工大学、北京理工大学、复旦大学等机... AI项目框架 4周前030
Kiss3DGen – 基于图像扩散模型的3D资产生成框架 Kiss3DGen是创新的3D资产生成框架,通过重新基于预训练的2D图像扩散模型来高效生成、编辑和增强3D对象。核心在于生成“3D Bundle Image”,将多视图图像及对应的法线图组合成一种拼贴... AI项目框架 4周前020