AI工具

帅气的我简直无法用语言描述!

PhotoDoodle - 字节联合新加坡国立大学等推出的艺术化图像编辑框架

PhotoDoodle是新加坡国立大学、上海交通大学、北京邮电大学、字节跳动和Tiamat团队联合推出的艺术化图像编辑框架,基于少量样本学习艺术家的独特风格,实现照片涂鸦(photo doodling...
2周前
000

olmOCR - Ai2 开源的 PDF 转结构化文档工具

olmOCR 是 Ai2 推出的开源工具,用在将 PDF 文档高效转换为干净的结构化纯文本。olmOCR结合文档锚定(document-anchoring)技术与Qwen2-VL-7B-Instruc...
2周前
020

video-subtitle-master - 开源AI字幕生成工具,支持批量为视频或音频生成字幕

video-subtitle-master 是能批量为视频或音频生成字幕的工具,基于开源项目 VideoSubtitleGenerator 开发,支持批量为视频或音频生成字幕,将字幕翻译成其他语言。v...
2周前
060

DualPipe - DeepSeek 开源的双向流水线并行技术

DualPipe 是DeepSeek开源的创新的双向流水线并行技术,主要用于提升大规模深度学习模型的训练效率。核心思想是将模型的训练过程分为两个独立的管道——前向计算管道和反向计算管道,并行执行。
2周前
020

麦琪的花园 - AutoGame 推出的AI沙盒冒险游戏

麦琪的花园是深圳奥拓盖母(AutoGame)开发的AI沙盒冒险游戏,是全球首款将AI技术与沙盒玩法深度融合的游戏。玩家在游戏中扮演一位退休的勇者,从零开始建设自己的营地,收集资源、建造设施、发展农业...
2周前
020

EPLB - DeepSeek 开源的专家并行负载均衡器

EPLB(Expert Parallelism Load Balancer)是 DeepSeek 推出的专家并行负载均衡器,能解决大规模模型训练中不同专家模型(Expert)负载不均的问题。EPLB ...
2周前
020

Profiling Data - DeepSeek开源训练和推理框架的性能分析数据

PProfiling Data是DeepSeek开源的训练和推理框架的性能分析数据,基于PyTorch Profiler捕获的程序运行过程中的详细信息,用在分析和优化软件性能。
2周前
020

Phi-4-Multimodal - 微软最新推出的多模态语言模型

Phi-4-Multimodal 是微软最新推出的多模态语言模型,拥有 56 亿参数,能将语音、视觉和文本处理集成到一个统一架构中。模型在多个基准测试中表现优异,在自动语音识别(ASR)和语音翻译(S...
2周前
020

R1-Onevision - 开源多模态视觉推理模型,基于 Qwen2.5-VL 微调

R1-Onevision 是开源的多模态大语言模型,专注于复杂视觉推理任务。基于 Qwen2.5-VL 微调而成,通过整合视觉和文本数据,能精准地进行多模态信息解释。在数学、科学、深度图像理解和逻辑推...
2周前
020

Phi-4-Mini - 微软推出专注于文本任务的小型语言模型

Phi-4-Mini 是微软 Phi-4 系列中最新推出的专注于文本任务的小型语言模型,参数量为 38 亿。基于密集的解码器-only Transformer 架构,结合分组查询注意力(Grouped...
2周前
020