GenMAC – 港大、清华联合微软推出文本到视频生成的多代理协作框架 GenMAC是香港大学、清华大学和微软研究院推出的多代理协作的迭代框架,用在解决文本到视频生成中的复杂场景生成问题。基于将任务分解为设计、生成和重新设计三个阶段,在生成与重新设计之间建立迭代循环,逐步... AI项目框架# 3个月前080
See3D – 智源研究院开源的无标注视频学习3D生成模型 See3D(See Video, Get 3D)是北京智源人工智能研究院推出的3D生成模型,能基于大规模无标注的互联网视频进行学习,实现从视频中生成3D内容。与传统依赖相机参数的3D生成模型不同,Se... AI项目框架# # AI 3个月前080
SPDL – Meta AI 推出的开源高性能AI模型数据加载解决方案 SPDL(Scalable and Performant Data Loading)是 Meta AI 推出的开源数据加载工具,能提高 AI 模型训练效率。基于多线程技术,实现高吞吐量数据加载,减少计... AI项目框架# # AI 3个月前080
EXAONE 3.5 – LG 推出的开源AI模型,擅长长文本处理降低模型幻觉问题 EXAONE 3.5是LG AI研究院推出的开源AI模型,包含24亿、78亿和320亿参数的三个版本。EXAONE 3.5擅长长文本处理,在基准测试中表现优异,特别是在实际应用、长文本处理和数学方面... AI项目框架# # AI 3个月前080
书生·万象InternVL 2.5 – 上海 AI Lab 开源的多模态大语言模型系列 书生·万象InternVL 2.5是上海AI实验室的OpenGVLab团队推出的开源多模态大型语言模型(MLLM)系列。该系列模型在InternVL 2.0的基础上进行显著增强,特别是在训练和测试策略... AI项目框架# # AI 3个月前080
TEN Agent – 开源的实时多模态 AI 代理框架 TEN Agent是集成OpenAI Realtime API和RTC技术的开源实时多模态AI代理框架。TEN Agent能实现语音、文本、图像的多模态交互,支持高性能的实时通信,具备低延迟的音视频交... AI项目框架# # AI 3个月前080
Insight-V – 提升长链视觉推理能力的多模态模型 Insight-V是南洋理工大学、腾讯公司和清华大学的研究者们共同推出的多模态模型,能提升多模态大型语言模型在长链视觉推理方面的能力。基于可扩展的数据生成流程生产高质量的推理数据,采用多智能体系统将视... AI项目框架# 3个月前080
豆包视觉理解模型 – 豆包推出视觉理解模型,具备识别和推理能力 豆包视觉理解模型是豆包推出的先进AI大模型,具备视觉识别和理解推理能力。豆包视觉理解模型能识别图像中物体的类别、形状、纹理等,还能理解物体间的关系和场景含义,进行复杂的逻辑计算任务,如解析学术论文图表... AI项目框架# # AI 3个月前080
MV-Adapter – 北航联合 VAST 等开源的多视图一致图像生成模型 MV-Adapter是多视图一致图像生成模型,是北京航空航天大学、VAST和上海交通大学的研究团队推出的。MV-Adapter能将预训练的文本到图像扩散模型转化为多视图图像生成器,无需改变原始网络结构... AI项目框架# 3个月前080
AniDoc – 2D动画上色AI模型,基于视频扩散模型自动将草图序列转换成彩色动画 AniDoc是香港科技大学、蚂蚁集团、南京大学、浙江大学和香港大学共同推出的简化2D动画上色AI模型,基于视频扩散模型自动将草图序列转换成彩色动画,遵循参考角色设计。模型用对应匹配技术处理角色设计与草... AI项目框架# # AI 3个月前080