StyleStudio – 文本驱动的风格迁移模型,能将参考图像的风格与文本提示内容融合 StyleStudio是西湖大学AI实验室、复旦大学、南洋理工大学和香港科技大学(广州)联合推出的,文本驱动的风格迁移模型,能将参考图像的风格与文本提示的内容融合。StyleStudio基于三种策略解... AI项目框架# # AI 5个月前0240
INFP – 音频驱动的生成逼真面部表情和头部姿态的AI框架 INFP是音频驱动的头部生成框架,专为双人对话交互设计。能自动在对话音频引导下进行角色的转换,无需手动分配角色和角色切换。INFP包括两个阶段:基于动作头部模仿阶段和音频引导动作生成阶段,通过实验和可... AI项目框架# 5个月前010
PromptWizard – 微软开源的 AI 提示词自动化优化框架 PromptWizard是微软推出的自动化提示优化框架,改进大型语言模型(LLMs)在特定任务中的表现。基于自我演变和自我适应机制,PromptWizard用反馈驱动的批评和合成过程,在探索和利用之间... AI项目框架# 5个月前0410
MetaMorph – 统一多模态理解与生成大模型,基于VPiT 预测多模态 token MetaMorph是多模态大模型(MLLM),通过指令微调(Instruction Tuning)实现视觉理解和生成。它提出了一种名为Visual-Predictive Instruction Tun... AI项目框架# 5个月前0140
VisionFM – 通用眼科AI大模型,具备少样本多种疾病诊断能力 VisionFM(伏羲慧眼)是多模态多任务的视觉基础模型,专为通用眼科人工智能而设计。通过预训练3.4百万张来自560,457个个体的眼科图像,覆盖广泛的眼科疾病、成像模态、设备和人群统计数据。Vis... AI项目框架# # AI 5个月前0220
LeviTor – 南大联合蚂蚁等机构开源的3D目标轨迹控制视频合成技术 LeviTor是南京大学、蚂蚁集团、浙江大学等机构推出的图像到视频合成技术,结合深度信息和K-means聚类点控制视频中3D物体的轨迹,无需显式的3D轨迹跟踪。LeviTor用高质量的视频对象分割数据... AI项目框架# 5个月前060
AgentScope – 阿里开源的多智能体开发平台 AgentScope是阿里巴巴集团开源的多智能体开发平台,帮助开发者轻松构建和部署多智能体应用。AgentScope提供高易用性、高鲁棒性和分布式支持,内置多种模型API和本地模型部署选项,覆盖聊天... AI项目框架# 5个月前080
ERA-42 – 星动纪元推出的端到端原生机器人大模型 ERA-42是北京星动纪元推出的端到端原生机器人大模型,与自研的五指灵巧手星动XHAND1结合,能完成100多种复杂灵巧操作任务。ERA-42无需预编程,具备快速学习新技能的能力,能在2小时内用少量数... AI项目框架# 5个月前070
3D-Speaker – 阿里通义推出的多模态说话人识别任务开源项目 3D-Speaker是阿里巴巴通义实验室语音团队推出的多模态开源项目,基于结合声学、语义、视觉信息,实现高精度的说话人识别和语种识别。3D-Speaker提供工业级模型、训练和推理代码,及大规模多设备... AI项目框架# 5个月前0290
Baichuan4-Finance – 百川智能推出的全链路金融领域增强大模型 Baichuan4-Finance是百川智能推出的全链路金融领域增强大模型,包括Baichuan4-Finance-Base和Baichuan4-Finance。基于Baichuan4-Turbo,用... AI项目框架# # AI 5个月前040