GLM-PC – 智谱推出的电脑智能体,基于CogAgent视觉大语言模型构建 GLM-PC是智谱AI基于CogAgent视觉多模态模型开发的通用Agent,能模拟人类操作计算机,实现“无人驾驶”PC的技术探索。GLM-PC能执行预定会议、文档处理、网页搜索总结等任务,并支持远程... AI项目框架# # AI 5个月前0310
TryOffDiff – AI虚拟试穿技术,单张穿着者图片生成标准化服装图像 TryOffDiff(VTOFF)是基于扩散模型的新型虚拟试穿技术,用高保真服装重建实现虚拟试穿,专注于从单张穿着者照片生成标准化的服装图像。与传统的Virtual Try-On技术不同,TryOff... AI项目框架# 5个月前01460
GLM-Edge – 智谱开源的端侧大语言和多模态系列模型 GLM-Edge是智谱开源的一系列端侧部署优化的大语言对话模型和多模态理解模型,包含GLM-Edge-1.5B-Chat、GLM-Edge-4B-Chat、GLM-Edge-V-2B和GLM-Edge... AI项目框架# 5个月前0120
FlagevalMM – 智源开源的多模态模型评测框架 FlagEvalMM是北京智源人工智能研究院开源的多模态模型评测框架,能全面评估处理文本、图像、视频等多种模态的模型,支持多种任务和指标。框架采用评测与模型推理解耦的设计,统一视觉语言模型、文生图、文... AI项目框架# 5个月前0190
Agent-E – 基于AutoGen代理框架构建的AI浏览器自动化系统 Agent-E是基于AutoGen代理框架构建的智能自动化系统,专注于浏览器内的自动化操作。Agent-E基于自然语言交互,能执行填写表单、搜索排序电商产品、定位网页内容、管理网络媒体播放、进行深度网... AI项目框架# 5个月前020
Delta-CoMe – 清华联合 OpenBMB 等高校开源的新型增量压缩算法 Delta-CoMe是清华大学NLP实验室联合OpenBMB开源社区、北京大学和上海财经大学提出的新型增量压缩算法,一个80G的A100 GPU能轻松加载多达50个7B模型,节省显存约8倍,同时模型性... AI项目框架# 5个月前000
NSFW Detector – 开源 AI 不适宜内容检测工具,支持识别图像、PDF、视频文件 NSFW Detector(Not Safe For Work,简称 NSFW)是开源的检测不适宜内容工具,NSFW Detector能识别图像、PDF、视频文件中的不适宜内容。工具基于Google的... AI项目框架# 5个月前0210
Magic Copy – 开源的AI抠图工具,在浏览器中自动识别图像进行抠图 Magic Copy是开源的抠图工具,支持Chrome浏览器扩展,基于Meta的Segment Anything Model技术,从图像中自动识别并提取前景对象,并将对象复制到用户的剪贴板中。Magi... AI项目框架# 5个月前090
CAT4D – 谷歌和哥伦比亚大学等高校推出的单目视频创建4D场景方法 CAT4D是Google DeepMind、哥伦比亚大学和加州大学圣地亚哥分校共同推出的,能从单目视频创建4D场景(动态3D)表示。CAT4D基于多视图视频扩散模型,能在任意指定的相机姿态和时间点合成... AI项目框架# 5个月前150
MultiFoley – Adobe 联合密歇根大学推出的音效生成系统 MultiFoley是Adobe Research和密歇根大学共同推出的音效生成系统,能基于文本、音频和视频的多模态控制生成Foley声音效果。系统支持用户根据文本提示、参考音频或部分视频来定制和生成... AI项目框架# 5个月前020