GPT-4o – OpenAI最新发布的多模态AI大模型

GPT-4o是什么

GPT-4o是OpenAI最新推出的一款先进的人工智能模型，具备强大的多模态推理能力，能够处理语音、文本和视觉信息。该模型能够实时响应用户输入，并且在音频交互中检测和表达情感，提供了更加自然和富有表现力的交流体验。GPT-4o的设计注重提高运算速度和降低成本，其速度是之前模型的两倍，而成本仅为一半。GPT-4o在多语言处理、音频和视觉理解上表现突出，同时在安全性设计上进行了强化，以确保交互的安全性。目前，该模型的文本和图像功能已在ChatGPT中逐步推出，用户可免费体验，后续将推出音频和视频功能。

GPT-4o的主要功能

多模态交互：GPT-4o不仅能够处理文本，还能处理语音和视觉信息，能够理解和回应更广泛的用户输入，包括实时视频分析。
实时对话反馈：该模型能够提供即时的响应，无论是在文本对话、语音交互还是视频内容分析中，都能快速给出反馈。对音频输入的响应时间极短，平均为320毫秒，与人类对话反应时间相近。
情感识别与模拟：GPT-4o能够识别用户的情感状态，并在语音输出中模拟相应的情感，使得对话更加贴近人与人之间的自然交流。
编程代码辅助：GPT-4o能够分析和理解编程语言中的代码片段，帮助用户理解代码的功能和逻辑。用户可以通过语音向GPT-4o提出关于代码的问题，模型会以语音形式回应，解释代码的工作原理或指出潜在的问题。
多语言支持：GPT-4o支持超过50种语言，能够服务于全球各地的用户，满足不同语言环境的需求。此外，还支持多种语言的实时同声传译，如英语口译为意大利语。

GPT-4o的性能表现

文本性能评估：GPT-4o在多语言理解均值（MMLU）基准测试中创下了87.2%的最高得分，GPQA得分为53.6%排名第一、MATH得分76.6%排名第一、HumanEval得分90.2%排名第一、MGSM得分90.5%排名第二（略低于Claude 3 Opus）。这显示了其在常识问题上的强大推理能力和文本处理能力。
音频 ASR 性能：GPT-4o 比 Whisper-v3 显著提高了所有语言的语音识别性能，特别是对于资源匮乏的语言。
音频翻译性能：GPT-4o 在语音翻译方面达到了新的最先进水平，并且在 MLS 基准测试中优于 Whisper-v3，超越Meta的SeamlessM4T-v2和谷歌的Gemini。
视觉理解评估：GPT-4o 在视觉感知基准上实现了SOTA最先进的性能，超过Gemini 1.0 Ultra、Gemini 1.5 Pro和Claude 3 Opus。

GPT-4o与GPT-4 Turbo的对比

价格：GPT-4o的价格比GPT-4 Turbo便宜50%，具体来说，输入和输出的标记（tokens）价格分别为每百万（M）输入5美元和每百万输出15美元。
速率限制：GPT-4o的速率限制是GPT-4 Turbo的5倍，每分钟可以处理高达1000万个token。
视觉能力：在与视觉能力相关的评估和测试中，GPT-4o的表现优于GPT-4 Turbo。
多语言支持：GPT-4o在非英语语言的支持上有所改进，比GPT-4 Turbo提供更好的性能。

目前，GPT-4o的上下文窗口为128k，知识截止日期是2023年10月。

如何使用GPT-4o

GPT-4o的文本和图像功能已经开始在ChatGPT中逐步推出，用户可以在ChatGPT平台上免费体验到GPT-4o的相关功能，但免费版有使用次数限制。 Plus用户的消息限制将比免费用户高出5倍。

同时，OpenAI还计划在未来几周内推出基于GPT-4o的Voice Mode的新版本，这将作为ChatGPT Plus的一个alpha版本提供给Plus用户。此外，GPT-4o也将通过API提供给开发者，作为文本和视觉模型。开发者可以利用API来集成GPT-4o到他们自己的应用程序中，而且GPT-4o在API中相比GPT-4 Turbo更快、更便宜，并且有更高的速率限制。

至于GPT-4o的音频和视频功能，OpenAI将在未来的几周和几个月内继续开发技术基础设施、通过训练后提高可用性以及确保安全性，之后才会发布这些功能，并逐步向公众提供。

官方博客介绍：Hello GPT-4o