커널 퓨전
여러 단계의 연산을 하나의 커널로 결합하여 실행하는 최적화 기법이다. 메모리 읽기/쓰기 횟수를 줄여 데이터 전송 병목 현상을 해결하고 전체 연산 속도를 향상시킨다. GPU 연산이나 고성능 CPU 연산 최적화에서 매우 중요한 역할을 한다.