AI项目框架 | 第30页

Fish Speech 1.5 – Fish Audio 推出的语音合成模型，支持13种语言

Fish Speech 1.5 是Fish Audio 推出的文本到语音（TTS）模型，基于深度学习技术如Transformer、VITS、VQVAE和GPT等。Fish Speech 1.5支持英语...

AI项目框架 # # AI

5个月前

060

MEMO – 音频驱动的生成肖像说话视频框架，保持身份一致性和表现力

MEMO（Memory-Guided EMOtionaware diffusion）是Skywork AI、南洋理工大学和新加坡国立大学推出的音频驱动肖像动画框架，用在生成具有身份一致性和表现力的说话...

AI项目框架 # # AI

5个月前

160

NVILA – 英伟达推出的视觉语言大模型

NVILA是NVIDIA推出的系列视觉语言模型，能平衡效率和准确性。模型用“先扩展后压缩”策略，有效处理高分辨率图像和长视频。NVILA在训练和微调阶段进行系统优化，减少资源消耗，在多项图像和视频基准...

AI项目框架 #

5个月前

060

Florence-VL – 微软和马里兰大学共同开源的多模态大语言模型

Florence-VL是创新的多模态大型语言模型（MLLMs），是马里兰大学和微软研究院共同推出的。Florence-VL用生成式视觉基础模型Florence-2丰富视觉表示，能捕捉图像的不同层次和方...

AI项目框架 #

5个月前

060

Willow 量子芯片 – 谷歌推出的最强量子芯片，成功解决30年纠错难题

Willow 量子芯片是谷歌最新推出的具有105个物理量子比特，在量子纠错和计算效率上取得了显著突破。Willow成功解决了量子计算领域近30年的纠错难题，实现了在增加量子比特数量的同时，显著降低错误...

AI项目框架 #

5个月前

060

Amurex – 开源AI会议助手，提供实时建议、智能摘要、快速回顾关键信息

Amurex是AI会议助手，基于实时建议、智能摘要、关键要点提取、迟到加入回顾和完整会议记录等功能，帮助用户提升会议效率。作为开源工具，Amurex强调透明度、安全性和隐私保护，让用户对数据的处理更放...

AI项目框架 # # AI

5个月前

060

DeepSeek-V2.5-1210 – DeepSeek V2.5 的最终版微调模型，支持联网搜索

DeepSeek-V2.5-1210是DeepSeek 推出的 DeepSeek V2 系列收官AI模型，DeepSeek V2.5 的最终版微调模型。模型基于Post-Training迭代，在数学...

AI项目框架 # # AI

5个月前

060

UniReal – 港大联合 Adobe 推出的通用图像生成和编辑框架

UniReal是什么 UniReal是香港大学和Adobe研究院共同推出的框架，专注于实现多种图像生成和编辑任务。框架基于模拟现实世界动态，能在单一模型中处理包括图像生成、编辑、定制和合成在内的广泛任...

AI项目框架 #

5个月前

060

LeviTor – 南大联合蚂蚁等机构开源的3D目标轨迹控制视频合成技术

LeviTor是南京大学、蚂蚁集团、浙江大学等机构推出的图像到视频合成技术，结合深度信息和K-means聚类点控制视频中3D物体的轨迹，无需显式的3D轨迹跟踪。LeviTor用高质量的视频对象分割数据...

AI项目框架 #

5个月前

060

CLEAR – 新加坡国立大学推出的线性注意力机制，生成8K图像时提速6.3倍

CLEAR是新加坡国立大学推出新型线性注意力机制，能提升预训练扩散变换器（DiTs）生成高分辨率图像的效率。基于将每个查询的注意力限制在局部窗口内，CLEAR实现了对图像分辨率的线性复杂度，降低了计算...

AI项目框架 #

5个月前

060