AI项目框架 | 第15页

GenMAC – 港大、清华联合微软推出文本到视频生成的多代理协作框架

GenMAC是香港大学、清华大学和微软研究院推出的多代理协作的迭代框架，用在解决文本到视频生成中的复杂场景生成问题。基于将任务分解为设计、生成和重新设计三个阶段，在生成与重新设计之间建立迭代循环，逐步...

AI项目框架 #

3个月前

080

See3D – 智源研究院开源的无标注视频学习3D生成模型

See3D（See Video, Get 3D）是北京智源人工智能研究院推出的3D生成模型，能基于大规模无标注的互联网视频进行学习，实现从视频中生成3D内容。与传统依赖相机参数的3D生成模型不同，Se...

AI项目框架 # # AI

3个月前

080

SPDL – Meta AI 推出的开源高性能AI模型数据加载解决方案

SPDL（Scalable and Performant Data Loading）是 Meta AI 推出的开源数据加载工具，能提高 AI 模型训练效率。基于多线程技术，实现高吞吐量数据加载，减少计...

AI项目框架 # # AI

3个月前

080

EXAONE 3.5 – LG 推出的开源AI模型，擅长长文本处理降低模型幻觉问题

EXAONE 3.5是LG AI研究院推出的开源AI模型，包含24亿、78亿和320亿参数的三个版本。EXAONE 3.5擅长长文本处理，在基准测试中表现优异，特别是在实际应用、长文本处理和数学方面...

AI项目框架 # # AI

3个月前

080

书生·万象InternVL 2.5 – 上海 AI Lab 开源的多模态大语言模型系列

书生·万象InternVL 2.5是上海AI实验室的OpenGVLab团队推出的开源多模态大型语言模型（MLLM）系列。该系列模型在InternVL 2.0的基础上进行显著增强，特别是在训练和测试策略...

AI项目框架 # # AI

3个月前

080

TEN Agent – 开源的实时多模态 AI 代理框架

TEN Agent是集成OpenAI Realtime API和RTC技术的开源实时多模态AI代理框架。TEN Agent能实现语音、文本、图像的多模态交互，支持高性能的实时通信，具备低延迟的音视频交...

AI项目框架 # # AI

3个月前

080

Insight-V – 提升长链视觉推理能力的多模态模型

Insight-V是南洋理工大学、腾讯公司和清华大学的研究者们共同推出的多模态模型，能提升多模态大型语言模型在长链视觉推理方面的能力。基于可扩展的数据生成流程生产高质量的推理数据，采用多智能体系统将视...

AI项目框架 #

3个月前

080

豆包视觉理解模型 – 豆包推出视觉理解模型，具备识别和推理能力

豆包视觉理解模型是豆包推出的先进AI大模型，具备视觉识别和理解推理能力。豆包视觉理解模型能识别图像中物体的类别、形状、纹理等，还能理解物体间的关系和场景含义，进行复杂的逻辑计算任务，如解析学术论文图表...

AI项目框架 # # AI

3个月前

080

MV-Adapter – 北航联合 VAST 等开源的多视图一致图像生成模型

MV-Adapter是多视图一致图像生成模型，是北京航空航天大学、VAST和上海交通大学的研究团队推出的。MV-Adapter能将预训练的文本到图像扩散模型转化为多视图图像生成器，无需改变原始网络结构...

AI项目框架 #

3个月前

080

AniDoc – 2D动画上色AI模型，基于视频扩散模型自动将草图序列转换成彩色动画

AniDoc是香港科技大学、蚂蚁集团、南京大学、浙江大学和香港大学共同推出的简化2D动画上色AI模型，基于视频扩散模型自动将草图序列转换成彩色动画，遵循参考角色设计。模型用对应匹配技术处理角色设计与草...

AI项目框架 # # AI

3个月前

080