gpt-4o-transcribe – OpenAI 推出的语音转文本模型 gpt-4o-transcribe是 OpenAI 推出的高性能语音转文本模型。基于最新的语音模型架构,用海量多样化音频数据训练,精准捕捉语音细微差别,显著降低单词错误率(WER),优于前代 Whis... AI项目框架# # AI 3个月前050
MATRIX-Gen – 上海交大联合牛津大学推出的多智能体模拟系统 MATRIX-Gen是上海交通大学和牛津大学研究团队推出的多智能体模拟系统,基于模拟1000多个具有独立身份和人格的AI智能体组成的社会,生成多样化且高质量的训练指令数据。训练指令数据用在大型语言模型... AI项目框架# # AI 6个月前050
Add-it – 英伟达推出无需训练的图像编辑技术 Add-it是NVIDIA推出的无需训练的图像编辑技术,能根据文本指令在图像中添加对象。这项技术基于扩展扩散模型的注意力机制,整合场景图像、文本提示和生成图像的信息,实现结构一致性和自然的对象放置。 AI项目框架# 6个月前050
OmniBooth – 华为诺亚方舟联合港科大推出的图像生成框架 OmniBooth是华为诺亚方舟实验室和港科大研究团队共同推出的图像生成框架,支持基于文本提示或图像参考进行空间控制和实例级定制。框架用用户定义的掩码和相关联的文本或图像指导精确控制图像中对象的位置和... AI项目框架# 6个月前150
Optima – 清华联合北邮推出优化通信效率和任务有效性的训练框架 Optima是清华大学推出的优化基于大型语言模型(LLM)的多智能体系统(MAS)的框架。基于一个迭代的生成、排名、选择和训练范式,显著提高通信效率和任务效果。Optima平衡了任务性能、令牌效率和通... AI项目框架# # AI 6个月前050
CAT4D – 谷歌和哥伦比亚大学等高校推出的单目视频创建4D场景方法 CAT4D是Google DeepMind、哥伦比亚大学和加州大学圣地亚哥分校共同推出的,能从单目视频创建4D场景(动态3D)表示。CAT4D基于多视图视频扩散模型,能在任意指定的相机姿态和时间点合成... AI项目框架# 6个月前150
DrivingDojo – 中科院联合美团推出的交互式驾驶世界模型数据集 DrivingDojo是中国科学院自动化研究所与美团无人车团队合作推出的数据集,用在训练和研究复杂的自动驾驶交互式世界模型。数据集包含18,000个视频片段,覆盖完整的驾驶操作、多智能体交互以及丰富的... AI项目框架# # AI 6个月前050
FineWeb 2 – Hugging Face推出的多语言预训练数据集 FineWeb 2是Hugging Face推出的多语言预训练数据集,覆盖超过1000种语言。FineWeb 2基于定制化的数据管道处理,包括语言识别、去重、内容过滤和PII匿名化,适应不同语言的特点... AI项目框架# 6个月前050
Promptic – 轻量级LLM应用开发框架,通过一行代码切换不同LLM Promptic是轻量级的LLM应用开发框架,提供高效且符合Python风格的开发方式。基于LiteLLM,Promptic支持开发者能轻松切换不同的LLM服务提供商,只需更改一行代码。Prompti... AI项目框架# 6个月前050
Gemini 2.0 Flash Thinking – 谷歌推出的实验性推理模型,展示详细思考过程 Gemini 2.0 Flash Thinking是谷歌推出的实验性AI模型,能快速思考和解决问题。Gemini 2.0 Flash Thinking展示详细的思考过程,与OpenAI的o1模型不同... AI项目框架# # AI 6个月前050