DiTCtrl – 港中文联合腾讯等机构推出的多提示视频生成方法 DiTCtrl是基于多模态扩散变换器(MM-DiT)架构的多提示视频生成方法,是香港中文大学和腾讯等机构联合推出的。DiTCtrl能在无需额外训练的情况下,实现多个文本提示之间的连贯视频生成,并保持内... AI项目框架# 5个月前080
联通元景 – 中国联通AI开源的中文原生文生图模型 联通元景(UniT2IXL)是中国联通AI推出的中文原生文生图模型,完全在国产昇腾AI基础软硬件平台上实现训练和推理。模型采用复合语言编码模块,优化中文长文本和特色词汇理解,提升图像生成质量。 AI项目框架# # AI 5个月前010
PartGen – 牛津大学联合 Meta AI 推出的3D对象生成和重建框架 PartGen是先进的3D对象生成和重建框架,是牛津大学的视觉几何小组和Meta AI共同推出的。PartGen能识别并生成由有意义部分组成的3D对象,3D对象能基于文本提示、图像或现有的3D模型生成... AI项目框架# # AI 5个月前050
PeterCat – AI问答机器人,自动抓取 GitHub 上的文档和 issue 作为知识库 PeterCat是开源的智能答疑机器人助手。PeterCat能帮助开发者和社区维护者更高效地解决技术问题,提升社区支持效率。PeterCat基于自动构建知识库,能与GitHub的issue、PR和Di... AI项目框架# 5个月前0100
Vision Parse – 开源的 PDF 转 Markdown 工具 Vision Parse是开源的PDF文档转换工具,基于视觉语言模型(Vision LLMs)将PDF文件转换成Markdown格式。Vision Parse能智能识别和提取PDF中的文本和表格,且保... AI项目框架# # AI 5个月前0180
The Language of Motion – 斯坦福李飞飞团队推出的统一多模态语言模型 The Language of Motion是斯坦福大学李飞飞团队推出的多模态语言模型,能整合人类动作中的言语和非言语语言。模型能处理文本、语音和动作数据,生成对应的目标模态,对于创建自然交流的虚拟角... AI项目框架# 5个月前030
VE-Bench – 北京大学开源首个针对视频编辑质量评估的新指标 VE-Bench 是北京大学的研究团队 MMCAL 最近发布首个专门针对视频编辑质量评估的指标。VE-Bench 的设计目标是与人类感知能力高度一致,更准确地评估视频编辑效果。VE-Bench QA ... AI项目框架# 5个月前0170
Mathtutor on Groq – AI数学辅导工具,支持用语音形式提出数学问题 Mathtutor on Groq 是基于 Groq 架构的AI数学辅导工具,基于语音识别功能,支持用户用语音形式提出数学问题。工具内置强大的数学引擎,能实时计算并用 LaTeX 格式渲染出详细的解题... AI项目框架# # AI 5个月前060
EDTalk – 上海交大联合网易推出高效解耦的情感说话头像合成模型 EDTalk是上海交通大学联合网易研发的音频驱动唇部同步模型,能实现对嘴型、头部姿态和情感表情的独立操控。只需上传一张图片、一段音频和参考视频,就能驱动图片中的人物说话,支持自定义情感,如高兴、愤怒... AI项目框架# 5个月前020
video-analyzer – AI 视频分析工具,提取视频关键帧、生成视频详细描述 video-analyzer是开源的视频分析工具,结合Llama的11B视觉模型和OpenAI的Whisper模型来提取视频关键帧、转录音频内容,并生成视频的详细描述。工具支持完全本地运行,无需云服务... AI项目框架# # AI 5个月前0220