MME-CoT – 港中文等机构推出评估视觉推理能力的基准框架 MME-CoT 是香港中文大学(深圳)、香港中文大学、字节跳动、南京大学、上海人工智能实验室、宾夕法尼亚大学、清华大学等机构共同推出的用于评估大型多模态模型(LMMs)链式思维(Chain-of-Th... AI项目框架# # AI 3个月前040
Builder.io – AI前端开发平台,快速将设计转化为前端代码 Builder.io 是基于AI技术的可视化开发平台,帮助企业快速将设计转化为实际产品。基于 AI 驱动的设计到代码功能,将设计工具(如 Figma)中的设计自动转换为可用于生产的前端代码,大幅缩短开... AI快讯# # AI 3个月前070
救救图片 – AI图片处理工具,任意图片一键变成无水印高清大图 救救图片是基于AI技术的在线图片处理工具,能快速去除图片水印、修复模糊、无损放大、去除马赛克,支持一键抠图和生成相似图片等功能。基于先进的AI算法,可以精准识别并去除各类水印,包括文字、图形和半透明背... AI快讯# # AI# 导出 3个月前060
PhotoDoodle – 字节联合新加坡国立大学等推出的艺术化图像编辑框架 PhotoDoodle是新加坡国立大学、上海交通大学、北京邮电大学、字节跳动和Tiamat团队联合推出的艺术化图像编辑框架,基于少量样本学习艺术家的独特风格,实现照片涂鸦(photo doodling... AI项目框架# 3个月前010
olmOCR – Ai2 开源的 PDF 转结构化文档工具 olmOCR 是 Ai2 推出的开源工具,用在将 PDF 文档高效转换为干净的结构化纯文本。olmOCR结合文档锚定(document-anchoring)技术与Qwen2-VL-7B-Instruc... AI快讯# # AI 3个月前020
video-subtitle-master – 开源AI字幕生成工具,支持批量为视频或音频生成字幕 video-subtitle-master 是能批量为视频或音频生成字幕的工具,基于开源项目 VideoSubtitleGenerator 开发,支持批量为视频或音频生成字幕,将字幕翻译成其他语言。v... AI项目框架# # AI 3个月前070
Phi-4-Multimodal – 微软最新推出的多模态语言模型 Phi-4-Multimodal 是微软最新推出的多模态语言模型,拥有 56 亿参数,能将语音、视觉和文本处理集成到一个统一架构中。模型在多个基准测试中表现优异,在自动语音识别(ASR)和语音翻译(S... AI项目框架# # AI 3个月前040
R1-Onevision – 开源多模态视觉推理模型,基于 Qwen2.5-VL 微调 R1-Onevision 是开源的多模态大语言模型,专注于复杂视觉推理任务。基于 Qwen2.5-VL 微调而成,通过整合视觉和文本数据,能精准地进行多模态信息解释。在数学、科学、深度图像理解和逻辑推... AI快讯# 3个月前060
Scribe – ElevenLabs 推出的高精度语音转文本模型 Scribe 是 ElevenLabs 推出的高精度语音转文本模型,专为多语言和复杂音频环境设计。支持99种语言,英语和意大利语的转录准确率分别达到96.7%和98.7%,在小语种上也有出色表现。 AI项目框架# # AI 3个月前070
a0.dev – AI开发平台,自然语言输入快速生成 React Native 代码 a0.dev 是基于 AI 技术的开发平台,专注于快速生成 React Native 应用。a0.dev 基于自然语言输入,自动生成完整的 React Native 项目代码,包括前端界面、状态管理... AI快讯# # AI# 导出 3个月前040