엔드투엔드 광학 문자 인식
레이아웃 검출, 텍스트 인식, 언어 이해를 별도의 단계로 나누지 않고 하나의 신경망 모델이 이미지 입력부터 최종 텍스트 출력까지 한 번에 처리하는 방식이다. 단계별 오류 누적을 방지하고 시각적 문맥을 온전히 보존할 수 있어 복잡한 문서 처리에 유리하다.