MMAudio – 基于多模态联合训练实现高质量 AI 音频合成项目 MMAudio是先进视频到音频合成技术,基于多模态联合训练,让模型能在广泛的视听和音频文本数据集上进行训练。技术的核心是同步模块,确保生成的音频与视频帧精确匹配,实现高度同步。 AI项目框架# 5个月前070
ChatTTSPlus – 开源文本转语音工具,ChatTTS扩展版支持语音克隆 ChatTTSPlus是ChatTTS的扩展版本,基于集成TensorRT加速、语音克隆和移动模型部署等先进技术,提升语音合成的性能和灵活性。在Windows平台上,能实现超过3倍的加速,从28 to... AI项目框架# 5个月前020
Project Mariner – 谷歌推出的浏览网站智能体,能帮用户操作表格、在线购物 Project Mariner 是谷歌 DeepMind 推出的浏览器助手。Project Mariner基于 Gemini 2.0 技术,用 Chrome 扩展程序实现浏览器自动化,理解和执行网页任... AI项目框架# 5个月前0920
Ultravox – 端到端多模态大模型,直接理解文本和人类语音 Ultravox是新型的多模态大型语言模型(LLM),能直接理解文本和人类语音,无需依赖单独的自动语音识别(ASR)阶段。基于多模态投影器技术将音频数据转换为高维空间表示,与LLM直接耦合,显著减少处... AI项目框架# # AI 5个月前030
FLOAT – 基于流匹配的音频驱动说话人头像生成模型 FLOAT是DeepBrain AI 和韩国先进科技研究院推出的音频驱动说话人头像生成模型,基于流匹配生成模型,学习运动潜在空间实现高效的时间一致性运动设计。模型基于Transformer架构的向量场... AI项目框架# # AI 5个月前070
TEN Agent – 开源的实时多模态 AI 代理框架 TEN Agent是集成OpenAI Realtime API和RTC技术的开源实时多模态AI代理框架。TEN Agent能实现语音、文本、图像的多模态交互,支持高性能的实时通信,具备低延迟的音视频交... AI项目框架# # AI 5个月前080
SynCamMaster – 快手联合浙大、清华等机构推出的多视角视频生成模型 SynCamMaster是浙江大学、快手科技、清华大学和香港中文大学的研究人员共同合作推出的全球首个多视角视频生成模型,能结合6自由度相机姿势,从任意视点生成开放世界视频。SynCamMaster增强... AI项目框架# 5个月前0380
STIV – 苹果公司推出的视频生成大模型 STIV(Scalable Text and Image Conditioned Video Generation)是苹果公司推出的视频生成大模型。STIV拥有8.7亿参数,能处理文本到视频(T2V... AI项目框架# # AI 5个月前090
Maya – 开源多语言多模态模型,能处理和理解八种不同语言 Maya是开源的多语言多模态模型,基于指令微调扩展模型在多种语言和文化背景下的能力。Maya基于LLaVA框架,包含新创建的包含八种语言的预训练数据集,提高视觉-语言任务中的文化和语言理解。Maya基... AI项目框架# # AI 5个月前020
DiffSensei – AI 漫画生成框架,能生成可控的黑白漫画面板 DiffSensei是北京大学、上海AI实验室及南洋理工大学的研究人员共同推出的漫画生成框架,能生成可控的黑白漫画面板。DiffSensei整合基于扩散的图像生成器和多模态大型语言模型(MLLM),实... AI项目框架# # AI 5个月前0130