PUMA – 多粒度策略统一的多模态大语言模型

PUMA是一个先进的多模态大型语言模型(MLLM),旨在基于集成多粒度视觉特征统一和增强视觉生成和理解任务。PUMA能处理从文本到图像的生成、详细的图像编辑及其他视觉任务,适应不同层次的细节要求。
7个月前
0160

象寄AI – 专注商业视觉内容的AI生成平台

象寄AI是商业视觉内容智能生成平台,主要服务于电商卖家和营销团队。基于深度学习和计算机视觉技术,提供图片翻译、视频翻译、AI驱动的SaaS系统等功能。象寄AI能智能识别图片主体、生成融合背景、智能图文...
7个月前
0160

LongVU – Meta AI开源的长视频理解模型

LongVU是Meta AI团队推出的长视频理解模型,基于时空自适应压缩机制。解决处理长视频时受限于大型语言模型(LLM)上下文大小的挑战。LongVU基于跨模态查询和帧间依赖性,LongVU能在减少...
7个月前
0160