AI项目框架 | 第67页

Veo 2 – 谷歌 DeepMind 推出的 AI 视频生成模型，支持高达 4K 分辨率

Veo 2 是 Google DeepMind 推出的 AI 视频生成模型，能根据文本或图像提示生成高质量视频内容。Veo 2支持高达 4K 分辨率的视频制作，理解镜头控制指令，能模拟现实世界的物理现...

AI项目框架 # # AI

5个月前

0950

BrushEdit – 腾讯和北大等联合推出的图像编辑框架，指令引导图像编辑和修复

BrushEdit是腾讯和北京大学等机构联合推出的先进图像编辑框架，是BrushNet模型的高级迭代版本。框架结合多模态大型语言模型（MLLMs）和双分支图像修复模型，实现基于指令引导的图像编辑和修复...

AI项目框架 #

5个月前

0170

Apollo – Meta 联合斯坦福大学推出的大型多模态模型

Apollo是Meta和斯坦福大学合作推出的大型多模态模型（LMMs），专注于视频理解。Apollo基于系统研究，揭示视频理解在LMMs中的关键驱动因素，推出“Scaling Consistency...

AI项目框架 #

5个月前

020

Bocha Semantic Reranker – 博查推出的语义排序模型

Bocha Semantic Reranker是博查AI推出的语义排序模型，能提升搜索应用和RAG应用中的搜索结果准确性。Bocha Semantic Reranker模型基于文本语义，对初步排序的搜...

AI项目框架 #

5个月前

0340

Ruyi – 图森未来推出的图生视频大模型

Ruyi是图森未来科技有限公司推出的图生视频大模型，专为在消费级显卡上运行设计，支持多分辨率、多时长视频生成，具备首帧、首尾帧控制、运动幅度控制和镜头控制等特性。Ruyi基于DiT架构，由Casual...

AI项目框架 #

5个月前

090

Leffa – Meta 开源的图像生成框架，精确控制人物的外观和姿势

Leffa（Learning Flow Fields in Attention）是 Meta AI推出的用在可控人物图像生成框架，基于在注意力机制中引入流场学习，精确控制人物的外观和姿势。Leffa基...

AI项目框架 # # AI

5个月前

040

Large Action Models – 微软推出的行动大模型开发框架

Large Action Models（LAMs）是微软推出大型行动模型的开发框架，能执行真实世界行动的智能系统，LAMs超越传统LLMs（Large Language Models，大型语言模型）的...

AI项目框架 # # AI

5个月前

0120

Lyra – SmartMore联合多所高校推出的增强多模态交互能力

Lyra是香港中文大学、SmartMore和香港科技大学推出的高效多模态大型语言模型（MLLM），专注于提升语音、视觉和语言模态的交互能力。Lyra基于开源大型模型、多模态LoRA模块和潜在的多模态正...

AI项目框架 #

5个月前

030

LatentLM – 微软联合清华推出的多模态生成模型

LatentLM是微软研究院和清华大学共同推出的多模态生成模型，能统一处理离散数据（如文本）和连续数据（如图像、音频）。模型用变分自编码器（VAE）将连续数据编码为潜在向量，引入下一个词扩散技术自回归...

AI项目框架 #

5个月前

040

Ivy-VL – AI Safeguard联合卡内基梅隆和斯坦福开源的轻量级多模态模型

Ivy-VL是AI Safeguard联合卡内基梅隆大学和斯坦福大学推出的轻量级多模态AI模型，专为移动端和边缘设备设计。模型拥有3B参数量，相较于其他多模态大模型，显著降低计算资源需求，能在AI眼镜...

AI项目框架 # # AI

5个月前

090