Magic Copy – 开源的AI抠图工具,在浏览器中自动识别图像进行抠图 Magic Copy是开源的抠图工具,支持Chrome浏览器扩展,基于Meta的Segment Anything Model技术,从图像中自动识别并提取前景对象,并将对象复制到用户的剪贴板中。Magi... AI项目框架# 3个月前090
Perplexideez – 开源本地AI搜索助手,智能搜索信息来源追溯 Perplexideez是本地AI助手,支持用户在网络和自托管应用中快速搜索信息。Perplexideez项目以Postgres数据库为基础,支持Ollama或OpenAI兼容的端点,用SearXNG... AI项目框架# # AI 3个月前090
Micro LLAMA – 教学版 LLAMA 3模型实现,用于学习大模型的核心原理 Micro LLAMA是精简的教学版LLAMA 3模型实现,能帮助学习者理解大型语言模型架构。整个项目仅约180行代码,便于理解和学习。Micro LLAMA用的是LLAMA 3中最小的8B参数模型... AI项目框架# 3个月前090
Optimus-1 – 哈工大联合鹏城实验室推出的智能体框架 Optimus-1是哈尔滨工业大学(深圳)和鹏城实验室推出的智能体框架,能解决在开放世界环境中完成长期任务的挑战。框架结合结构化知识和多模态经验,让智能体更好地执行复杂任务。 AI项目框架# 3个月前090
CausVid – Adobe 联合 MIT 推出的自回归实时视频生成技术 CausVid是Adobe和MIT共同推出的自回归实时视频生成技术,能实现视频的即时播放。基于蒸馏预训练的双向扩散模型构建出自回归生成模型,减少视频生成的延迟,首帧延迟仅1.3秒,生成速度达到9.4帧... AI项目框架# 3个月前090
Gemini 2.0 – 谷歌推出的原生多模态输入输出 + Agent 为核心的AI模型 Gemini 2.0是谷歌最新推出的原生多模态输入输出的AI模型。Gemini 2.0 Flash是2.0家族第一个模型,以多模态输入输出和Agent技术为核心,速度比 1.5 Pro快两倍,关键性能... AI项目框架# # AI 3个月前090
STIV – 苹果公司推出的视频生成大模型 STIV(Scalable Text and Image Conditioned Video Generation)是苹果公司推出的视频生成大模型。STIV拥有8.7亿参数,能处理文本到视频(T2V... AI项目框架# # AI 3个月前090
Multimodal Live API – 谷歌推出支持多模态交互、低延迟实时互动的AI接口 Multimodal Live API 是谷歌推出的低延迟、双向交互的AI接口,支持文本、音频和视频输入,用音频和文本形式输出,能帮助开发者构建具有实时音频和视频流功能的应用程序。Multimodal... AI项目框架# # AI 3个月前090
Ivy-VL – AI Safeguard联合卡内基梅隆和斯坦福开源的轻量级多模态模型 Ivy-VL是AI Safeguard联合卡内基梅隆大学和斯坦福大学推出的轻量级多模态AI模型,专为移动端和边缘设备设计。模型拥有3B参数量,相较于其他多模态大模型,显著降低计算资源需求,能在AI眼镜... AI项目框架# # AI 3个月前090
EMMA-X – 新加坡科技设计大学推出的具身多模态动作模型 EMMA-X是新加坡科技设计大学推出的具有70亿参数的具身多模态动作模型,在有根据的链式思维(CoT)推理数据上微调OpenVLA创建。EMMA-X结合层次化的具身数据集,包含3D空间运动、2D夹爪位... AI项目框架# 3个月前090