| 第5页 | FREEIMG导航

MME-CoT – 港中文等机构推出评估视觉推理能力的基准框架

MME-CoT 是香港中文大学（深圳）、香港中文大学、字节跳动、南京大学、上海人工智能实验室、宾夕法尼亚大学、清华大学等机构共同推出的用于评估大型多模态模型（LMMs）链式思维（Chain-of-Th...

AI项目框架 # # AI

3个月前

040

Builder.io – AI前端开发平台，快速将设计转化为前端代码

Builder.io 是基于AI技术的可视化开发平台，帮助企业快速将设计转化为实际产品。基于 AI 驱动的设计到代码功能，将设计工具（如 Figma）中的设计自动转换为可用于生产的前端代码，大幅缩短开...

AI快讯 # # AI

3个月前

070

救救图片 – AI图片处理工具，任意图片一键变成无水印高清大图

救救图片是基于AI技术的在线图片处理工具，能快速去除图片水印、修复模糊、无损放大、去除马赛克，支持一键抠图和生成相似图片等功能。基于先进的AI算法，可以精准识别并去除各类水印，包括文字、图形和半透明背...

AI快讯 # # AI # 导出

3个月前

060

PhotoDoodle – 字节联合新加坡国立大学等推出的艺术化图像编辑框架

PhotoDoodle是新加坡国立大学、上海交通大学、北京邮电大学、字节跳动和Tiamat团队联合推出的艺术化图像编辑框架，基于少量样本学习艺术家的独特风格，实现照片涂鸦（photo doodling...

AI项目框架 #

3个月前

010

olmOCR – Ai2 开源的 PDF 转结构化文档工具

olmOCR 是 Ai2 推出的开源工具，用在将 PDF 文档高效转换为干净的结构化纯文本。olmOCR结合文档锚定（document-anchoring）技术与Qwen2-VL-7B-Instruc...

AI快讯 # # AI

3个月前

020

video-subtitle-master – 开源AI字幕生成工具，支持批量为视频或音频生成字幕

video-subtitle-master 是能批量为视频或音频生成字幕的工具，基于开源项目 VideoSubtitleGenerator 开发，支持批量为视频或音频生成字幕，将字幕翻译成其他语言。v...

AI项目框架 # # AI

3个月前

070

Phi-4-Multimodal – 微软最新推出的多模态语言模型

Phi-4-Multimodal 是微软最新推出的多模态语言模型，拥有 56 亿参数，能将语音、视觉和文本处理集成到一个统一架构中。模型在多个基准测试中表现优异，在自动语音识别（ASR）和语音翻译（S...

AI项目框架 # # AI

3个月前

040

R1-Onevision – 开源多模态视觉推理模型，基于 Qwen2.5-VL 微调

R1-Onevision 是开源的多模态大语言模型，专注于复杂视觉推理任务。基于 Qwen2.5-VL 微调而成，通过整合视觉和文本数据，能精准地进行多模态信息解释。在数学、科学、深度图像理解和逻辑推...

AI快讯 #

3个月前

060

Scribe – ElevenLabs 推出的高精度语音转文本模型

Scribe 是 ElevenLabs 推出的高精度语音转文本模型，专为多语言和复杂音频环境设计。支持99种语言，英语和意大利语的转录准确率分别达到96.7%和98.7%，在小语种上也有出色表现。

AI项目框架 # # AI

3个月前

070

a0.dev – AI开发平台，自然语言输入快速生成 React Native 代码

a0.dev 是基于 AI 技术的开发平台，专注于快速生成 React Native 应用。a0.dev 基于自然语言输入，自动生成完整的 React Native 项目代码，包括前端界面、状态管理...

AI快讯 # # AI # 导出

3个月前

040