Vision Parse – 开源的 PDF 转 Markdown 工具 Vision Parse是开源的PDF文档转换工具,基于视觉语言模型(Vision LLMs)将PDF文件转换成Markdown格式。Vision Parse能智能识别和提取PDF中的文本和表格,且保... AI项目框架# # AI 3个月前0160
video-analyzer – AI 视频分析工具,提取视频关键帧、生成视频详细描述 video-analyzer是开源的视频分析工具,结合Llama的11B视觉模型和OpenAI的Whisper模型来提取视频关键帧、转录音频内容,并生成视频的详细描述。工具支持完全本地运行,无需云服务... AI项目框架# # AI 3个月前0160
Mind GPT-3o – 理想汽车推出的多模态端到端大模型 Mind GPT-3o是理想汽车推出的多模态端到端大模型,融合语音、视觉和语言理解技术,实现高效实时交互。Mind GPT-3o具备记忆、规划、工具使用和表达能力,能提升用户认知、完成任务并提供情感支... AI项目框架# 3个月前0160
FlashFace – 阿里联合香港大学推出的高保真AI写真工具 FlashFace是阿里联合香港大学推出的高保真AI写真工具。能基于用户提供的面部图像和文本提示,快速生成个性化的高保真人像写真图。FlashFace具备高保真度身份保留、即时个性化、多样化结果生成等... AI项目框架# # AI 5个月前0160
HumanVid – 专为人类图像动画生成而设计的高质量数据集 HumanVid是香港中文大学和上海人工智能实验室共同推出的高质量数据集,专为人类图像动画训练设计。结合了现实世界视频和合成数据,通过精心设计的规则筛选高质量视频,并使用2D姿势估计和SLAM技术进行... AI项目框架# 5个月前0160
ConFiner – 高质量长视频生成框架,可制作长达600帧的连贯视频 ConFiner 是一个创新的视频生成框架,由多所大学和研究机构共同推出。结合多个现成的扩散模型专家,无需额外训练可生成高质量且连贯的视频内容。 AI项目框架# 5个月前0160
Text Behind Image – 开源在线图像处理工具,在图中角色背后添加文字 Text Behind Image是开源的在线工具,支持用户在图片中的角色背后添加文字,创建具有视觉冲击力的海报和社交媒体图像。用户在图像中的主体背后添加自定义文本,并提供文字、字体、颜色、位置、粗细... AI项目框架# 3个月前0150
VE-Bench – 北京大学开源首个针对视频编辑质量评估的新指标 VE-Bench 是北京大学的研究团队 MMCAL 最近发布首个专门针对视频编辑质量评估的指标。VE-Bench 的设计目标是与人类感知能力高度一致,更准确地评估视频编辑效果。VE-Bench QA ... AI项目框架# 3个月前0150
Cradle – 通用计算机控制的多模态AI Agent框架 Cradle是面向通用计算机控制(General Computer Control, GCC)的多模态AI Agent框架,由昆仑万维携手北京智源人工智能研究院、新加坡南洋理工大学、北京大学等顶尖名校... AI项目框架# # AI 5个月前0150
CAD-MLLM – 上海科技大学联合多机构推出的计算机辅助设计CAD模型生成系统 CAD-MLLM是由上海科技大学、Transcengram、DeepSeek AI和香港大学共同推出的,计算机辅助设计(CAD)模型生成系统,根据用户的多种输入(如文本描述、图像、点云或这些输入的组合... AI项目框架# # AI 3个月前0140