tiling1 TILING 최적화 for 메모리 Access (tiled matrix multiplication) References Programming Massively Parallel Processors Contents Tiling 기법 Tiled Matrix Multiplication 병렬화의 제한 요소인 메모리 크기 지난 포스팅에서 CUDA의 메모리에 관해서 알아봤습니다. CUDA의 메모리 Access와 Type (예제 : matrix multiplication) 그리고 행렬 곱 커널을 구현하여 CUDA를 사용한 행렬 곱 프로그램을 작성해봤습니다. 하지만, 작성된 커널은 GPU 하드웨어의 성능을 온전히 사용하지 못한다고 했습니다. 이번 포스팅에서 이 성능을 어떻게 더 끌어올릴 수 있는지 살펴보도록 하겠습니다. Tiling for reduced memory traffic CUDA에서 디바이스 메모리를 사용할 .. 2021. 12. 6. 이전 1 다음