귀찮아서 대충 설명함

배치 사이즈 4 = +4 +4 +4 +4......

= 기존 가중치에다 한번에 4장을 계산한 뒤에 차이값의 평균만큼 가중치를 변경함

gradient accumulation step 4 = (1+1+1+1) + (1+1+1+1)......

= 기존 가중치를 변화시키지 않고 한번에 1장씩 4번 계산한 뒤에 차이값을 합쳐서 그 평균만큼 가중치를 변경함

뭔 차이냐? 별 차이 없음ㅇㅇ

근데 배치 사이즈 4 + gradient accumulation step 4를 하면 어떻게 되냐

(4+4+4+4)+(4+4+4+4)....

= 한번에 4장씩 4번 계산한 뒤에 그 평균만큼 가중치를 변경함

즉 배치 사이즈 16과 비슷한 효과를 낼 수 있음

예를 들어 배치 사이즈 8 + gradient accumulation step 8 ≈ 배치 사이즈 64

물론 시간 단축의 효과는 없다만 배치 사이즈가 높을수록 어떤 효과가 있는지는 알 거라 생각함