AI项目框架 | 第12页

Magic Copy – 开源的AI抠图工具，在浏览器中自动识别图像进行抠图

Magic Copy是开源的抠图工具，支持Chrome浏览器扩展，基于Meta的Segment Anything Model技术，从图像中自动识别并提取前景对象，并将对象复制到用户的剪贴板中。Magi...

AI项目框架 #

3个月前

090

Perplexideez – 开源本地AI搜索助手，智能搜索信息来源追溯

Perplexideez是本地AI助手，支持用户在网络和自托管应用中快速搜索信息。Perplexideez项目以Postgres数据库为基础，支持Ollama或OpenAI兼容的端点，用SearXNG...

AI项目框架 # # AI

3个月前

090

Micro LLAMA – 教学版 LLAMA 3模型实现，用于学习大模型的核心原理

Micro LLAMA是精简的教学版LLAMA 3模型实现，能帮助学习者理解大型语言模型架构。整个项目仅约180行代码，便于理解和学习。Micro LLAMA用的是LLAMA 3中最小的8B参数模型...

AI项目框架 #

3个月前

090

Optimus-1 – 哈工大联合鹏城实验室推出的智能体框架

Optimus-1是哈尔滨工业大学（深圳）和鹏城实验室推出的智能体框架，能解决在开放世界环境中完成长期任务的挑战。框架结合结构化知识和多模态经验，让智能体更好地执行复杂任务。

AI项目框架 #

3个月前

090

CausVid – Adobe 联合 MIT 推出的自回归实时视频生成技术

CausVid是Adobe和MIT共同推出的自回归实时视频生成技术，能实现视频的即时播放。基于蒸馏预训练的双向扩散模型构建出自回归生成模型，减少视频生成的延迟，首帧延迟仅1.3秒，生成速度达到9.4帧...

AI项目框架 #

3个月前

090

Gemini 2.0 – 谷歌推出的原生多模态输入输出 + Agent 为核心的AI模型

Gemini 2.0是谷歌最新推出的原生多模态输入输出的AI模型。Gemini 2.0 Flash是2.0家族第一个模型，以多模态输入输出和Agent技术为核心，速度比 1.5 Pro快两倍，关键性能...

AI项目框架 # # AI

3个月前

090

STIV – 苹果公司推出的视频生成大模型

STIV（Scalable Text and Image Conditioned Video Generation）是苹果公司推出的视频生成大模型。STIV拥有8.7亿参数，能处理文本到视频（T2V...

AI项目框架 # # AI

3个月前

090

Multimodal Live API – 谷歌推出支持多模态交互、低延迟实时互动的AI接口

Multimodal Live API 是谷歌推出的低延迟、双向交互的AI接口，支持文本、音频和视频输入，用音频和文本形式输出，能帮助开发者构建具有实时音频和视频流功能的应用程序。Multimodal...

AI项目框架 # # AI

3个月前

090

Ivy-VL – AI Safeguard联合卡内基梅隆和斯坦福开源的轻量级多模态模型

Ivy-VL是AI Safeguard联合卡内基梅隆大学和斯坦福大学推出的轻量级多模态AI模型，专为移动端和边缘设备设计。模型拥有3B参数量，相较于其他多模态大模型，显著降低计算资源需求，能在AI眼镜...

AI项目框架 # # AI

3个月前

090

EMMA-X – 新加坡科技设计大学推出的具身多模态动作模型

EMMA-X是新加坡科技设计大学推出的具有70亿参数的具身多模态动作模型，在有根据的链式思维（CoT）推理数据上微调OpenVLA创建。EMMA-X结合层次化的具身数据集，包含3D空间运动、2D夹爪位...

AI项目框架 #

3个月前

090