AI项目框架 | 第47页

SwiftEdit – AI文本引导图像编辑框架，0.23秒内实现高质量的图像编辑

SwiftEdit是由VinAI Research团队推出的文本引导的图像编辑工具，基于创新的一步扩散技术，能在0.23秒内实现快速且高质量的图像编辑。工具的核心优势在于一步反演框架和掩码引导编辑技术...

AI项目框架 # # AI

6个月前

040

POINTS 1.5 – 腾讯微信推出的多模态大模型

POINTS 1.5 是腾讯微信发布的多模态大模型，是POINTS 1.0的升级版本。模型继续沿用了POINTS 1.0中的LLaVA架构，由一个视觉编码器、一个投影器和一个大型语言模型组成。 PO...

AI项目框架 #

6个月前

040

Leffa – Meta 开源的图像生成框架，精确控制人物的外观和姿势

Leffa（Learning Flow Fields in Attention）是 Meta AI推出的用在可控人物图像生成框架，基于在注意力机制中引入流场学习，精确控制人物的外观和姿势。Leffa基...

AI项目框架 # # AI

6个月前

040

LatentLM – 微软联合清华推出的多模态生成模型

LatentLM是微软研究院和清华大学共同推出的多模态生成模型，能统一处理离散数据（如文本）和连续数据（如图像、音频）。模型用变分自编码器（VAE）将连续数据编码为潜在向量，引入下一个词扩散技术自回归...

AI项目框架 #

6个月前

040

Manga Image Translator – 开源漫画图片文字翻译工具，多语言翻译无缝嵌入原图

Manga Image Translator是开源的漫画图片文字翻译工具，能一键翻译漫画和图片中的文字。Manga Image Translator基于OCR技术识别文本，结合机器翻译将文字转换成目标...

AI项目框架 # # AI

6个月前

040

FACTS Grounding – 谷歌推出的评估大模型能力的基准测试

FACTS Grounding是谷歌DeepMind推出的评估大型语言模型（LLMs）能力的基准测试，衡量模型根据给定上下文生成事实准确且无捏造信息的文本的能力。FACTS Grounding测试集包...

AI项目框架 #

6个月前

040

Baichuan4-Finance – 百川智能推出的全链路金融领域增强大模型

Baichuan4-Finance是百川智能推出的全链路金融领域增强大模型，包括Baichuan4-Finance-Base和Baichuan4-Finance。基于Baichuan4-Turbo，用...

AI项目框架 # # AI

6个月前

040

VidTok – 微软开源的视频分词器，支持连续和离散分词化

VidTok（Video Tokenizer）是微软开源的先进的视频分词器，通过高效的算法将视频内容转换成一系列“视频词”。支持连续和离散分词化，具有灵活的压缩率和多样化的隐空间，适用于不同的应用场景...

AI项目框架 #

6个月前

040

琅琊 – 中国科学院海洋研究所自主研发的海洋大模型1.0版本

琅琊是中国科学院海洋研究所自主研发的新一代海洋人工智能大模型1.0版本，专注于海洋状态变量预报。模型结合了先进的人工智能算法和专业的海洋科学知识，能实现对全球海洋状态变量的中短期高精度预报。

AI项目框架 #

6个月前

040

Whisper-Medusa – aiOla推出的开源AI语音识别模型

Whisper-Medusa是aiOla推出的开源AI语音识别模型，结合了OpenAI的Whisper技术与aiOla的创新，Whisper-Medusa引入了多头注意力机制，实现了并行处理，显著提升...

AI项目框架 # # AI

8个月前

040