AI项目框架 | 第9页

Phi-4 – 微软推出的14B参数小语言模型，擅长数学等领域的复杂推理

Phi-4是微软推出的14亿参数小型语言模型，在数学等领域的复杂推理以及传统语言处理方面表现出色。Phi-4用数据质量为核心训练重点，大量融入合成数据，提升模型在STEM问答和数学竞赛问题上的表现。P...

AI项目框架 # # AI

3个月前

0120

VideoDoodles – Adobe推出的AI视频编辑框架

VideoDoodles是Adobe公司联合多所大学推出的AI视频编辑框架。支持用户在视频中轻松插入手绘动画，实现与视频内容的无缝融合。通过预处理视频帧，系统提供平面画布，用户可以视频上绘制动画，系统...

AI项目框架 # # AI

5个月前

0120

Chonkie – RAG文本分块库，基于Token、单词、句子和语义的多种分块方法

Chonkie是轻量级、快速且功能丰富的RAG（Retrieval-Augmented Generation）分块库，为文本处理设计。Chonkie支持基于Token、单词、句子和语义的多种分块方法...

AI项目框架 #

3个月前

0110

TIP-I2V – 超170万大规模真实文本和图像提示数据集

TIP-I2V是大规模真实文本和图像提示数据集，用在图像到视频生成领域。TIP-I2V包含超过170万独特的用户文本和图像提示，及五种SOTA图生视频模型生成的相应视频。数据集能推动更好、更安全的图像...

AI项目框架 #

3个月前

0110

MarkItDown – 微软开源的多功能、多格式文档转Markdown工具

MarkItDown是微软开源的多功能文档处理工具，能将PDF、PPT、Word、Excel、图像、音频、HTML等多种格式的文件转换成Markdown格式。支持OCR文字识别、语音转文字和元数据提取...

AI项目框架 #

3个月前

0110

WeaveFox – 蚂蚁推出 AI 前端研发平台，根据设计图直接生成源代码

WeaveFox是蚂蚁团队推出的AI驱动前端智能研发平台，基于蚂蚁自研的百灵多模态大模型，能直接根据设计图生成前端源代码。工具支持多种应用类型，包括控制台、移动端H5、小程序等，且兼容多种技术栈，如R...

AI项目框架 # # AI

3个月前

0110

Infinity – 字节跳动推出的高分辨率图像生成模型

Infinity是字节跳动推出的基于位级自回归建模的视觉生成模型，能根据语言指令生成高分辨率、逼真的图像。Infinity通过无限词汇量的标记器、分类器和位自纠正机制，显著提升图像生成的细节和质量，超...

AI项目框架 #

3个月前

0110

VideoPrism – 谷歌研究团队推出的通用视频编码器

VideoPrism是一个由谷歌研究团队开发的通用视频编码器，旨在通过一个单一的冻结模型来处理多种视频理解任务。该模型能够从视频中提取丰富的语义表示，使其能够在不同的视频理解任务中实现高性能和准确率...

AI项目框架 # # AI

5个月前

0110

UniTalker – 商汤推出的音频驱动3D面部动画生成模型

UniTalker是推出的音频驱动3D面部动画生成模型，能根据输入的音频生成逼真的面部动作。采用统一的多头架构模型，用带有不同标注的数据集，支持多语言和多种音频类型的处理，包括语音和歌曲。

AI项目框架 #

5个月前

0110

HourVideo – 李飞飞和吴佳俊团队推出的长视频理解基准数据集

HourVideo是斯坦福大学李飞飞和吴佳俊团队推出的长视频理解基准数据集，包含500个第一人称视角视频，时长20至120分钟，覆盖77种日常活动，能评估多模态模型对长视频的理解能力。

AI项目框架 #

5个月前

0110