Phi-4 – 微软推出的14B参数小语言模型,擅长数学等领域的复杂推理 Phi-4是微软推出的14亿参数小型语言模型,在数学等领域的复杂推理以及传统语言处理方面表现出色。Phi-4用数据质量为核心训练重点,大量融入合成数据,提升模型在STEM问答和数学竞赛问题上的表现。P... AI项目框架# # AI 3个月前0120
VideoDoodles – Adobe推出的AI视频编辑框架 VideoDoodles是Adobe公司联合多所大学推出的AI视频编辑框架。支持用户在视频中轻松插入手绘动画,实现与视频内容的无缝融合。通过预处理视频帧,系统提供平面画布,用户可以视频上绘制动画,系统... AI项目框架# # AI 5个月前0120
Chonkie – RAG文本分块库,基于Token、单词、句子和语义的多种分块方法 Chonkie是轻量级、快速且功能丰富的RAG(Retrieval-Augmented Generation)分块库,为文本处理设计。Chonkie支持基于Token、单词、句子和语义的多种分块方法... AI项目框架# 3个月前0110
TIP-I2V – 超170万大规模真实文本和图像提示数据集 TIP-I2V是大规模真实文本和图像提示数据集,用在图像到视频生成领域。TIP-I2V包含超过170万独特的用户文本和图像提示,及五种SOTA图生视频模型生成的相应视频。数据集能推动更好、更安全的图像... AI项目框架# 3个月前0110
MarkItDown – 微软开源的多功能、多格式文档转Markdown工具 MarkItDown是微软开源的多功能文档处理工具,能将PDF、PPT、Word、Excel、图像、音频、HTML等多种格式的文件转换成Markdown格式。支持OCR文字识别、语音转文字和元数据提取... AI项目框架# 3个月前0110
WeaveFox – 蚂蚁推出 AI 前端研发平台,根据设计图直接生成源代码 WeaveFox是蚂蚁团队推出的AI驱动前端智能研发平台,基于蚂蚁自研的百灵多模态大模型,能直接根据设计图生成前端源代码。工具支持多种应用类型,包括控制台、移动端H5、小程序等,且兼容多种技术栈,如R... AI项目框架# # AI 3个月前0110
Infinity – 字节跳动推出的高分辨率图像生成模型 Infinity是字节跳动推出的基于位级自回归建模的视觉生成模型,能根据语言指令生成高分辨率、逼真的图像。Infinity通过无限词汇量的标记器、分类器和位自纠正机制,显著提升图像生成的细节和质量,超... AI项目框架# 3个月前0110
VideoPrism – 谷歌研究团队推出的通用视频编码器 VideoPrism是一个由谷歌研究团队开发的通用视频编码器,旨在通过一个单一的冻结模型来处理多种视频理解任务。该模型能够从视频中提取丰富的语义表示,使其能够在不同的视频理解任务中实现高性能和准确率... AI项目框架# # AI 5个月前0110
UniTalker – 商汤推出的音频驱动3D面部动画生成模型 UniTalker是推出的音频驱动3D面部动画生成模型,能根据输入的音频生成逼真的面部动作。采用统一的多头架构模型,用带有不同标注的数据集,支持多语言和多种音频类型的处理,包括语音和歌曲。 AI项目框架# 5个月前0110
HourVideo – 李飞飞和吴佳俊团队推出的长视频理解基准数据集 HourVideo是斯坦福大学李飞飞和吴佳俊团队推出的长视频理解基准数据集,包含500个第一人称视角视频,时长20至120分钟,覆盖77种日常活动,能评估多模态模型对长视频的理解能力。 AI项目框架# 5个月前0110