GOT-OCR2.0 – 开源的端到端OCR模型，多语言多模态识别，多样化输入输出

GOT-OCR2.0是什么

GOT-OCR 2.0是一种先进的光学字符识别（OCR）模型，推动OCR技术进入2.0时代。GOT-OCR 2.0端到端的模型由高压缩编码器和长上下文解码器组成，能处理包括文本、数学公式、分子式、图表、乐谱和几何图形在内的多种光学字符。GOT-OCR 2.0支持多种语言，尤其是中文和英文，能输出多种格式化结果，如Markdown和LaTeX。模型具备交互式OCR功能，包括区域级识别和动态分辨率策略、多页OCR技术，适用于高分辨率图像和批量文档处理。GOT-OCR 2.0具有580M参数，模型尺寸为1.43GB，提供精准、高效的OCR解决方案。

GOT-OCR2.0的主要功能

多语言和多模态识别：支持多种语言的文本识别，包括中文和英文，及手写体和印刷体。
多样化输入输出：能处理照片、文档、切片等多种输入格式，支持纯文本、Markdown、TikZ、SMILES、Kern等输出格式。
长文本处理：解码器支持长达8K的token，适用于处理学术论文、法律文件等长文本资料。
交互式OCR功能：通过坐标或颜色引导的区域级识别，提供更灵活的用户体验。
动态分辨率策略：适应超高分辨率图像，如大幅海报或拼接PDF页面，保持识别准确性。
多页OCR技术：批量处理多页文档，提高长篇PDF文件或多图片文档的处理效率。

GOT-OCR2.0的技术原理

编码器-解码器架构：
- 编码器：负责将输入的图像压缩成一系列的图像token，token捕捉图像中的视觉信息。
- 解码器：接收编码器输出的图像token，转换为文本输出。解码器支持长上下文，能处理长文本。
高压缩率编码器：编码器将1024×1024像素的图像压缩成256×1024尺寸的图像token，有助于处理高分辨率图像。
长上下文解码器：解码器支持长达8K的token序列，能处理包含大量文本的长文档。
多阶段训练策略：
- 预训练阶段：编码器在大量文本数据上进行预训练，学习文本的视觉表示。
- 联合训练阶段：编码器与新的解码器一起训练，适应更广泛的OCR任务。
- 后训练阶段：对解码器进行进一步训练，支持细粒度OCR、动态分辨率和多页OCR等高级功能。