QAT1 Integer Quantization for Deep Learning Inference 리뷰 References Integer Quantization for Deep Learning Inference: Principles and Empirical Evaluation (link) 이 논문은 뉴럴 네트워크의 INT quantization에 대한 수학적인 배경과 성능과 관련하여 quantization parameter를 선택하는 몇 가지 방법을 이야기한다. 또한, quantization workflow를 제안하며 이를 통해 모든 네트워크에서 1% 이내의 정확도 손실로 양자화할 수 있다는 것을 보여준다. Intro 양자화(quantization) 기법은 높은 처리량의 integer instruction을 활용하여 딥뉴럴 네트워크의 크기를 줄이고 추론 속도를 향상시킬 수 있다. 일반적으로 32비트의 si.. 2024. 2. 7. 이전 1 다음