AI项目框架 | 第74页

DiTCtrl – 港中文联合腾讯等机构推出的多提示视频生成方法

DiTCtrl是基于多模态扩散变换器（MM-DiT）架构的多提示视频生成方法，是香港中文大学和腾讯等机构联合推出的。DiTCtrl能在无需额外训练的情况下，实现多个文本提示之间的连贯视频生成，并保持内...

AI项目框架 #

5个月前

080

联通元景 – 中国联通AI开源的中文原生文生图模型

联通元景（UniT2IXL）是中国联通AI推出的中文原生文生图模型，完全在国产昇腾AI基础软硬件平台上实现训练和推理。模型采用复合语言编码模块，优化中文长文本和特色词汇理解，提升图像生成质量。

AI项目框架 # # AI

5个月前

010

PartGen – 牛津大学联合 Meta AI 推出的3D对象生成和重建框架

PartGen是先进的3D对象生成和重建框架，是牛津大学的视觉几何小组和Meta AI共同推出的。PartGen能识别并生成由有意义部分组成的3D对象，3D对象能基于文本提示、图像或现有的3D模型生成...

AI项目框架 # # AI

5个月前

050

PeterCat – AI问答机器人，自动抓取 GitHub 上的文档和 issue 作为知识库

PeterCat是开源的智能答疑机器人助手。PeterCat能帮助开发者和社区维护者更高效地解决技术问题，提升社区支持效率。PeterCat基于自动构建知识库，能与GitHub的issue、PR和Di...

AI项目框架 #

5个月前

0100

Vision Parse – 开源的 PDF 转 Markdown 工具

Vision Parse是开源的PDF文档转换工具，基于视觉语言模型（Vision LLMs）将PDF文件转换成Markdown格式。Vision Parse能智能识别和提取PDF中的文本和表格，且保...

AI项目框架 # # AI

5个月前

0180

The Language of Motion – 斯坦福李飞飞团队推出的统一多模态语言模型

The Language of Motion是斯坦福大学李飞飞团队推出的多模态语言模型，能整合人类动作中的言语和非言语语言。模型能处理文本、语音和动作数据，生成对应的目标模态，对于创建自然交流的虚拟角...

AI项目框架 #

5个月前

030

VE-Bench – 北京大学开源首个针对视频编辑质量评估的新指标

VE-Bench 是北京大学的研究团队 MMCAL 最近发布首个专门针对视频编辑质量评估的指标。VE-Bench 的设计目标是与人类感知能力高度一致，更准确地评估视频编辑效果。VE-Bench QA ...

AI项目框架 #

5个月前

0170

Mathtutor on Groq – AI数学辅导工具，支持用语音形式提出数学问题

Mathtutor on Groq 是基于 Groq 架构的AI数学辅导工具，基于语音识别功能，支持用户用语音形式提出数学问题。工具内置强大的数学引擎，能实时计算并用 LaTeX 格式渲染出详细的解题...

AI项目框架 # # AI

5个月前

060

EDTalk – 上海交大联合网易推出高效解耦的情感说话头像合成模型

EDTalk是上海交通大学联合网易研发的音频驱动唇部同步模型，能实现对嘴型、头部姿态和情感表情的独立操控。只需上传一张图片、一段音频和参考视频，就能驱动图片中的人物说话，支持自定义情感，如高兴、愤怒...

AI项目框架 #

5个月前

020

video-analyzer – AI 视频分析工具，提取视频关键帧、生成视频详细描述

video-analyzer是开源的视频分析工具，结合Llama的11B视觉模型和OpenAI的Whisper模型来提取视频关键帧、转录音频内容，并生成视频的详细描述。工具支持完全本地运行，无需云服务...

AI项目框架 # # AI

5个月前

0220