RAG-Diffusion – 南京大学推出的区域感知文本到图像生成方法 RAG-Diffusion是南京大学团队推出的区域感知文本到图像生成方法。基于区域硬绑定和区域软细化两个阶段,实现对图像中各个区域的精确控制和细节优化。RAG-Diffusion支持图像重绘功能,用户... AI项目框架# # AI 4个月前000
AnimateAnything – 浙江大学联合北航推出的统一可控视频生成技术 AnimateAnything是浙江大学和北京航空航天大学研究者推出的统一可控视频生成技术。AnimateAnything能精确操作视频,包括控制相机轨迹、文本提示和用户动作注释。基于多尺度控制特征融... AI项目框架# 4个月前060
Documind – 开源AI文档处理工具,将PDF转换为图像提取结构化数据 Documind是开源的AI文档处理工具,能从PDF文档中提取结构化数据。Documind具备将PDF转换为图像、用OpenAI API进行信息提取,根据用户定义的模式格式化输出结果的功能。Docum... AI项目框架# # AI 4个月前0100
FitDiT – 腾讯联合复旦推出的高保真虚拟试穿技术 FitDiT是高保真虚拟试穿技术,是腾讯和复旦大学联合推出的。基于Diffusion Transformers(DiT)关注高分辨率特征,提升服装细节的呈现。FitDiT用服装纹理提取器和服装先验演化... AI项目框架# 4个月前000
Verifier Engineering – 中科院、阿里、小红书联合推出的新型后训练范式 Verifier Engineering(验证器工程)是中国科学院、阿里巴巴和小红书联合推出的新型后训练范式,为基础模型设计,解决提供有效监督信号的挑战。Verifier Engineering基于自... AI项目框架# 4个月前000
MARS – 字节推出优化大模型训练效率的框架 MARS(Make vAriance Reduction Shine)是字节跳动推出的创新的优化框架,提升大型模型训练的效率。MARS融合预条件梯度方法与方差减少技术,基于缩放随机递归动量技术优化梯度... AI项目框架# 4个月前060
KuaiFormer – 快手推出的检索框架,基于Transformer KuaiFormer是快手技术团队推出的基于Transformer的检索框架,用在大规模内容推荐系统。基于重新定义检索流程,从传统的分数估计任务转变为Transformer驱动的“下一个动作预测”范式... AI项目框架# # AI 4个月前050
XiYan-SQL – 阿里推出文本到SQL的多生成器集成框架 XiYan-SQL是阿里巴巴推出的自然语言到SQL(NL2SQL)框架,基于多生成器集成策略,结合提示工程和监督微调,提升SQL查询生成质量。XiYan-SQL引入M-Schema半结构化架构表示,增... AI项目框架# 4个月前000
BlueLM-V-3B – ViVo联合香港中文大学推出的算法和系统协同设计方法 BlueLM-V-3B是vivo AI Lab和香港中文大学MMLab联合推出的算法和系统协同设计方法,支持高效部署多模态大型语言模型(MLLM)至移动设备。模型以小尺寸(2.7B语言参数和400M视... AI项目框架# # AI 4个月前0250
EyeDiff – 文本到图像扩散模型,自然语言生成多模态眼科图像 EyeDiff是文本到图像的扩散模型,基于自然语言提示生成多模态眼科图像,提高常见和罕见眼病的诊断准确性。模型在多个大规模数据集上训练,能准确捕捉关键病变特征,并与文本提示高度一致。基于集成生成的图像... AI项目框架# 4个月前060