Step-1o – 阶跃星辰推出的国内首个千亿参数端到端语音大模型 Step-1o是阶跃星辰推出的国内首个千亿参数端到端语音大模型。模型支持语音、文本等混合形式的输入和输出,可以快速反应并随时打断,提供最便捷的互动体验;同时还可以通过自学和优化来不断进步。 AI项目框架# 5个月前020
POINTS 1.5 – 腾讯微信推出的多模态大模型 POINTS 1.5 是腾讯微信发布的多模态大模型,是POINTS 1.0的升级版本。 模型继续沿用了POINTS 1.0中的LLaVA架构,由一个视觉编码器、一个投影器和一个大型语言模型组成。 PO... AI项目框架# 5个月前040
360gpt2-o1 – 360 推出国产自研 AI 大模型,多项评测优于GPT-4o 360gpt2-o1 是 360 自研的 AI 大模型,在推理能力上有显著提升,特别是在数学和逻辑推理任务上表现出色。模型通过合成数据优化、模型后训练和“慢思考”范式实现了技术突破,在多项权威评测中取... AI项目框架# # AI 5个月前020
FreeScale – 无需微调的推理框架,提升扩散模型生成能力首次实现8K分辨率图像 FreeScale是南洋理工大学、阿里巴巴集团和复旦大学推出无需微调的推理框架,提升预训练扩散模型生成高分辨率图像和视频的能力。FreeScale基于处理和融合不同尺度的信息,有效解决模型在生成超训练... AI项目框架# 5个月前0140
k1 视觉思考模型 – kimi推出的 k1 系列强化学习模型 k1 视觉思考模型是kimi推出的k1系列强化学习AI模型,原生支持端到端图像理解和思维链技术,将能力扩展到数学之外的更多基础科学领域。k1模型在图像理解、数学、物理、化学等学科的基准测试中表现优异... AI项目框架# # AI 5个月前000
Freestyler – 西工大联合微软和香港大学推出的说唱乐生成模型 Freestyler是西北工业大学计算机科学学院音频、语音与语言处理小组(ASLP@NPU)、微软及香港中文大学深圳研究院大数据研究所共同推出的说唱乐生成模型,能直接根据歌词和伴奏创作出说唱音乐。 AI项目框架# 5个月前0100
SnapGen – Snap联合港科大等机构推出的移动端文生图模型 SnapGen是Snap Inc、香港科技大学、墨尔本大学等机构联合推出的文本到图像(T2I)扩散模型,能在移动设备上快速生成高分辨率(1024x1024像素)的图像,且只需1.4秒。模型用379M参... AI项目框架# 5个月前0190
Megrez-3B-Omni – 无问芯穹开源的端侧全模态理解模型 Megrez-3B-Omni是无问芯穹推出的全球首个端侧全模态理解开源模型,能处理图像、音频和文本三种模态数据。Megrez-3B-Omni在多个主流测试集上展现出超越34B模型的性能,推理速度领先同... AI项目框架# 5个月前070
CosyVoice 2.0 – 阿里开源的语音生成大模型 CosyVoice 2.0 是阿里巴巴通义实验室推出的CosyVoice语音生成大模型升级版,模型用有限标量量化技术提高码本利用率,简化文本-语音语言模型架构,推出块感知因果流匹配模型支持多样的合成场... AI项目框架# # AI 5个月前080
RDT – 清华开源的双臂机器人扩散基础模型 RDT(Robotics Diffusion Transformer)是清华大学AI研究院TSAIL团队推出的全球最大的双臂机器人操作任务扩散基础模型。RDT具备十亿参数量,能在无需人类操控的情况下... AI项目框架# # AI 5个月前030