반응형 Neural Networks1 Quantization (양자화) 에 대해서. 간단히 예를들어 float32(아래 라인) 범위의 값들을, int8(위 라인)의 범위에 맞추는 것 신경망(Neural Networks)을 양자화하는 이유 신경망에는 많은 매개변수가 있고 공간을 차지합니다. 모델 파일의 크기를 줄일 수 있습니다. 컴퓨팅 리소스를 줄일 수 있습니다. 모델을 더 빠르게 실행하고 더 적은 전력을 사용합니다. 양자화의 이점 Faster compute Low memory bandwidth Low power Integer operations supported across CPU/DSP/NPUs 양자화의 Trade-offs 모델 정확도가 낮아짐. - 위 사진처럼 넓고 자세한 범위에서 작은 범위로 줄어들기 때문에. - 하지만 드물게 약간의 정확도를 더 얻는 경우도 있음 - 즉, 레이어 .. 2022. 1. 26. 이전 1 다음 728x90 반응형