Fish Speech 1.5 – Fish Audio 推出的语音合成模型,支持13种语言 Fish Speech 1.5 是Fish Audio 推出的文本到语音(TTS)模型,基于深度学习技术如Transformer、VITS、VQVAE和GPT等。Fish Speech 1.5支持英语... AI项目框架# # AI 5个月前060
MEMO – 音频驱动的生成肖像说话视频框架,保持身份一致性和表现力 MEMO(Memory-Guided EMOtionaware diffusion)是Skywork AI、南洋理工大学和新加坡国立大学推出的音频驱动肖像动画框架,用在生成具有身份一致性和表现力的说话... AI项目框架# # AI 5个月前160
NVILA – 英伟达推出的视觉语言大模型 NVILA是NVIDIA推出的系列视觉语言模型,能平衡效率和准确性。模型用“先扩展后压缩”策略,有效处理高分辨率图像和长视频。NVILA在训练和微调阶段进行系统优化,减少资源消耗,在多项图像和视频基准... AI项目框架# 5个月前060
Florence-VL – 微软和马里兰大学共同开源的多模态大语言模型 Florence-VL是创新的多模态大型语言模型(MLLMs),是马里兰大学和微软研究院共同推出的。Florence-VL用生成式视觉基础模型Florence-2丰富视觉表示,能捕捉图像的不同层次和方... AI项目框架# 5个月前060
Willow 量子芯片 – 谷歌推出的最强量子芯片,成功解决30年纠错难题 Willow 量子芯片是谷歌最新推出的具有105个物理量子比特,在量子纠错和计算效率上取得了显著突破。Willow成功解决了量子计算领域近30年的纠错难题,实现了在增加量子比特数量的同时,显著降低错误... AI项目框架# 5个月前060
Amurex – 开源AI会议助手,提供实时建议、智能摘要、快速回顾关键信息 Amurex是AI会议助手,基于实时建议、智能摘要、关键要点提取、迟到加入回顾和完整会议记录等功能,帮助用户提升会议效率。作为开源工具,Amurex强调透明度、安全性和隐私保护,让用户对数据的处理更放... AI项目框架# # AI 5个月前060
DeepSeek-V2.5-1210 – DeepSeek V2.5 的最终版微调模型,支持联网搜索 DeepSeek-V2.5-1210是DeepSeek 推出的 DeepSeek V2 系列收官AI模型,DeepSeek V2.5 的最终版微调模型。模型基于Post-Training迭代,在数学... AI项目框架# # AI 5个月前060
UniReal – 港大联合 Adobe 推出的通用图像生成和编辑框架 UniReal是什么 UniReal是香港大学和Adobe研究院共同推出的框架,专注于实现多种图像生成和编辑任务。框架基于模拟现实世界动态,能在单一模型中处理包括图像生成、编辑、定制和合成在内的广泛任... AI项目框架# 5个月前060
LeviTor – 南大联合蚂蚁等机构开源的3D目标轨迹控制视频合成技术 LeviTor是南京大学、蚂蚁集团、浙江大学等机构推出的图像到视频合成技术,结合深度信息和K-means聚类点控制视频中3D物体的轨迹,无需显式的3D轨迹跟踪。LeviTor用高质量的视频对象分割数据... AI项目框架# 5个月前060
CLEAR – 新加坡国立大学推出的线性注意力机制,生成8K图像时提速6.3倍 CLEAR是新加坡国立大学推出新型线性注意力机制,能提升预训练扩散变换器(DiTs)生成高分辨率图像的效率。基于将每个查询的注意力限制在局部窗口内,CLEAR实现了对图像分辨率的线性复杂度,降低了计算... AI项目框架# 5个月前060