IndexTTS - B 站推出的文本转语音模型,支持拼音纠正汉字发音 IndexTTS 是 B 站推出的工业级可控文本转语音(TTS)系统。基于 XTTS 和 Tortoise 模型开发,结合了 GPT 风格的生成技术,能将文本高效转化为自然流畅的语音。IndexTTS... AI项目框架 2周前020
Scribe - ElevenLabs 推出的高精度语音转文本模型 Scribe 是 ElevenLabs 推出的高精度语音转文本模型,专为多语言和复杂音频环境设计。支持99种语言,英语和意大利语的转录准确率分别达到96.7%和98.7%,在小语种上也有出色表现。 AI项目框架# # AI 2周前020
VideoGrain - 悉尼科技大学和浙大推出的视频编辑框架 VideoGrain 是悉尼科技大学和浙江大学推出的零样本多粒度视频编辑框架,能实现类别级、实例级和部件级的精细视频修改。VideoGrain基于调节时空交叉注意力和自注意力机制,增强文本提示对目标区... AI项目框架# # AI 2周前020
GPT-4.5 - OpenAI 推出的最强聊天模型 GPT-4.5 是 OpenAI 推出的最新大型语言模型,是目前规模最大、性能最强的聊天模型。基于扩展无监督学习,提升模式识别、知识广度和创意生成能力,减少了幻觉现象,让对话更自然、更符合人类交流习惯... AI项目框架# # AI 2周前020
3FS - DeepSeek推出的高性能分布式文件系统 3FS(Fire-Flyer File System)是DeepSeek推出的高性能分布式文件系统,专为AI训练和推理任务设计。3FS用现代SSD和RDMA网络技术,基于分离式架构聚合数千个SSD的吞... AI项目框架# # AI 2周前020
CorrDiff - NVIDIA 推出的生成式 AI 模型,专注于全球气象数据 CorrDiff 是 NVIDIA 推出的生成式 AI 模型,用于将低分辨率的全球天气数据下采样为高分辨率数据,提高天气预测的准确性和效率。采用两步法处理数据:首先通过 UNet 架构预测大气变量的条... AI项目框架 2周前010
Smallpond - DeepSeek开源的轻量级数据处理框架 Smallpond是DeepSeek推出的基于 DuckDB 和 3FS 构建的轻量级数据处理框架,专为高性能和大规模数据处理设计。Smallpond支持处理 PB 级数据集,借助 DuckDB 的高... AI项目框架# 2周前020
SongGen - 上海 AI Lab 和北航、港中文推出的歌曲生成模型 SongGen是上海AI Lab、北京航空航天大学和香港中文大学推出的单阶段自回归Transformer模型,用在从文本生成歌曲。SongGen基于歌词和描述性文本(如乐器、风格、情感等)作为输入,支... AI项目框架# # AI 2周前020
Baichuan-Audio - 百川智能开源的端到端语音交互模型 Baichuan-Audio是百川智能推出的端到端音频大语言模型,支持无缝集成音频理解和生成功能,实现支持高质量、可控的实时中英双语对话。Baichuan-Audio基于多码本离散化技术将音频信号转化... AI项目框架# # AI 2周前020
VidSketch - 浙江大学推出的视频动画生成框架 VidSketch 是浙江大学 CAD&CG 国家重点实验室和软件学院推出的创新视频生成框架,根据手绘草图和简单文本提示生成高质量的视频动画。VidSketch基于“层级草图控制策略”动态调整... AI项目框架# 2周前020