EyeDiff – 文本到图像扩散模型,自然语言生成多模态眼科图像 EyeDiff是文本到图像的扩散模型,基于自然语言提示生成多模态眼科图像,提高常见和罕见眼病的诊断准确性。模型在多个大规模数据集上训练,能准确捕捉关键病变特征,并与文本提示高度一致。基于集成生成的图像... AI项目框架# 4个月前070
LongAlign – 港大推出的提升文本到图像扩散模型处理长文本对齐方法 LongAlign是香港大学研究团队推出的文本到图像(T2I)扩散模型的改进方法,能提升长文本输入的对齐精度。LongAlign用段级编码技术,将长文本分割处理,适应编码模型的输入限制。同时引入分解偏... AI项目框架# 4个月前070
ShowUI – 新加坡国立联合微软推出用于 GUI 自动化的视觉-语言-操作模型 ShowUI是新加坡国立大学Show Lab和微软共同推出的视觉-语言-行动模型,能提升图形用户界面(GUI)助手的工作效率。模型基于UI引导的视觉令牌选择减少计算成本,用交错视觉-语言-行动流统一G... AI项目框架# 4个月前070
iDP3 – 斯坦福大学联合多所高校推出的改进型3D视觉运动策略 iDP3(Improved 3D Diffusion Policy)是斯坦福大学联合多所高校推出的3D视觉运动策略,能提升人形机器人在多样化环境中的自主操作能力。与传统3D策略不同,iDP3基于自我中... AI项目框架# 4个月前070
Proactive Agent – 清华联合面壁智能开源的新一代主动Agent交互范式 Proactive Agent是清华大学联合面壁智能等团队推出的新一代主动Agent交互范式 ,具备主动性,能预测用户需求并在没有直接指令的情况下采取行动。Proactive Agent观察环境和用户... AI项目框架# # AI 4个月前070
OminiControl – AI图像生成框架,实现图像主题控制和空间精确控制 OminiControl是高度通用且参数高效的图像生成框架,为扩散变换器模型如FLUX.1设计,实现对图像生成过程的精细控制。OminiControl支持主题驱动控制和空间控制,例如边缘引导和绘画生成... AI项目框架# 4个月前070
Talker-Reasoner – 谷歌DeepMind推出的双思维AI代理架构 Talker-Reasoner是谷歌DeepMind推出的AI代理架构,借鉴人类的认知理论,将代理分为两个模块:Talker和Reasoner。Talker模拟人类的快速直觉思维(System 1... AI项目框架# # AI 4个月前070
GPT学术优化 – 专为学术研究和写作设计的多功能开源项目 GPT学术优化(GPT Academic)是功能丰富的开源项目,专为学术研究和写作设计。GPT学术优化集成一键论文翻译、源代码解析、互联网信息获取、Latex文章校对、论文润色和摘要生成等多项实用功能... AI项目框架# 4个月前070
TPDM – 西湖大学联合北大等高校推出的时间预测扩散模型 TPDM(Time Prediction Diffusion Model)是西湖大学MAPLE实验室、南方科技大学、北京大学及西湖大学高等研究院先进技术研究所联合推出的图像生成模型,能自适应地调整去噪... AI项目框架# 4个月前070
ConsisID – 北大联合鹏城实验室等机构推出的文本到视频生成模型 ConsisID是北京大学和鹏城实验室等机构推出的文本到视频(Text-to-Video, IPT2V)生成模型,基于频率分解技术保持视频中人物身份的一致性。模型用免调优(tuning-free)的D... AI项目框架# 4个月前070