HourVideo – 李飞飞和吴佳俊团队推出的长视频理解基准数据集 HourVideo是斯坦福大学李飞飞和吴佳俊团队推出的长视频理解基准数据集,包含500个第一人称视角视频,时长20至120分钟,覆盖77种日常活动,能评估多模态模型对长视频的理解能力。 AI项目框架# 7个月前0110
App Intents – 苹果推出的集成Siri和Apple Intelligence新框架 App Intents是苹果推出的支持开发者在iOS、macOS等平台上集成Siri和Apple Intelligence的新框架,实现应用功能与系统体验(如Siri、Spotlight搜索、快捷指令... AI项目框架# 7个月前0270
SeedEdit – 字节豆包团队推出的AI图像编辑模型 SeedEdit是字节跳动豆包大模型团队推出的通用图像编辑模型,基于简单的自然语言指令编辑图像,包括修图、换装、美化、风格转换及在指定区域添加或删除元素等。SeedEdit的核心优势为在维持原始图像和... AI项目框架# 7个月前01970
DimensionX – 港科大、清华和生数科技共同推出的单图像生成复杂3D、4D场景框架 DimensionX是香港科技大学、清华大学和生数科技共同推出的框架,能从单张图片生成高逼真度的3D和4D场景,基于视频扩散技术实现对空间和时间维度的精确控制。框架基于ST-Director技术解耦空... AI项目框架# 7个月前0110
HK-O1aw – HKGAI团队联合北大团队推出的慢思考范式法律推理大模型 HK-O1aw是香港生成式AI研发中心(HKGAI)旗下AI for Reasoning团队(HKAIR)与北京大学对齐团队(PKU-Alignment Team)合作推出的全球首个慢思考范式法律推理... AI项目框架# # AI 7个月前090
AnimePro FLUX – 动漫风格图像生成模型,基于Flux.1 Shnell模型微调 AnimePro FLUX是基于Apache 2.0许可的动漫风格图像生成模型,专为生成高质量二次元插画设计。AnimePro FLUX基于Flux.1 Shnell模型微调,克服DEV版本的许可限制... AI项目框架# 7个月前0130
VideoChat – 开源的实时数字人对话系统,首包延迟低至3秒 VideoChat是开源的实时数字人对话系统,支持语音输入和实时对话功能。用户自定义数字人的形象和音色,无需训练即可进行音色克隆,首包延迟可低至3秒,适用于直播、新闻播报和聊天助手等多种实时语音交互场... AI项目框架# 7个月前01570