Multi-Speaker – AudioShake 推出的多说话人声分离模型 Multi-Speaker是AudioShake推出的全球首个高分辨率多说话人分离模型。支持将音频中的多个说话人精准分离到不同轨道,解决传统音频工具在处理重叠语音时的难题。Multi-Speaker适... AI项目框架# 4周前040
ReCamMaster – 浙大联合快手等推出的视频重渲染框架 ReCamMaster 是浙江大学、快手科技等联合推出的视频重渲染框架,能根据新的相机轨迹重新生成视频内容。通过预训练模型和帧维度条件机制,结合多相机同步数据集和相机姿态条件,实现视频视角、运动轨迹的... AI项目框架# 4周前020
Instella – AMD开源的30亿参数系列语言模型 Instella是AMD推出的系列30亿参数的开源语言模型。模型完全从零开始在AMD Instinct™ MI300X GPU上训练而成,基于自回归Transformer架构,包含36个解码器层和32... AI项目框架# # AI 4周前020
Stable Virtual Camera – Stability AI 等机构推出的 AI 模型,2D图像转3D视频 Stable Virtual Camera 是 Stability AI 推出的 AI 模型,能将 2D 图像转换为具有真实深度和透视感的 3D 视频。用户可以通过指定相机轨迹和多种动态路径(如螺旋... AI项目框架 4周前020
Maestro – 开源的端到端自动化测试框架 Maestro是用在移动和Web应用的端到端自动化测试框架。基于内置的容错能力和延迟容忍机制,解决传统测试中常见的不稳定性和等待问题。Maestro基于声明式语法,支持在yaml文件中定义测试,无需编... AI项目框架 4周前040
OLMo 2 32B – Ai2 推出的最新开源语言模型 OLMo 2 32B 是 Allen Institute for AI(Ai2)推出的最新开源语言模型,是 OLMo 2 系列的重要成果。拥有 320 亿参数,是首个在多技能学术基准测试中超越 GPT... AI项目框架 4周前010
InternVL – OpenGVLab 推出的多模态大模型 InternVL 是上海人工智能实验室 OpenGVLab 推出的多模态大模型,专注于视觉与语言任务。采用 ViT-MLP-LLM 架构,通过视觉模块(如 InternViT)和语言模块(如 Inte... AI项目框架# # AI 4周前020
Umi-OCR – 免费 OCR 文字识别工具,支持截图、批量图片排版解析 Umi-OCR 是免费开源的离线 OCR 文字识别软件。无需联网,解压即用,支持截图、批量图片、PDF 扫描件的文字识别,能识别数学公式、二维码,可生成双层可搜索 PDF。内置多语言识别库,界面支持多... AI项目框架 4周前020
Orpheus TTS – 开源AI语音合成系统,支持多种语音风格 Orpheus TTS 是基于 Llama-3b 架构的开源文本到语音(TTS)系统。Orpheus TTS 支持生成自然、富有情感且接近人类水平的语音,具备零样本语音克隆能力,无需预训练,模仿特定语... AI项目框架 4周前020
o1-pro – OpenAI 推出的升级版推理模型 o1-pro是 OpenAI 正式推出的 o1 系列的升级版本,o1-pro 是目前 OpenAI 最强大的推理模型,核心优势在于显著提升的计算能力,能更好地应对复杂问题,提供更一致且高质量的响应。o... AI项目框架 4周前020