귀찮아서 대충 설명함
배치 사이즈 4 = +4 +4 +4 +4......
= 기존 가중치에다 한번에 4장을 계산한 뒤에 차이값의 평균만큼 가중치를 변경함
gradient accumulation step 4 = (1+1+1+1) + (1+1+1+1)......
= 기존 가중치를 변화시키지 않고 한번에 1장씩 4번 계산한 뒤에 차이값을 합쳐서 그 평균만큼 가중치를 변경함
뭔 차이냐? 별 차이 없음ㅇㅇ
근데 배치 사이즈 4 + gradient accumulation step 4를 하면 어떻게 되냐
(4+4+4+4)+(4+4+4+4)....
= 한번에 4장씩 4번 계산한 뒤에 그 평균만큼 가중치를 변경함
즉 배치 사이즈 16과 비슷한 효과를 낼 수 있음
예를 들어 배치 사이즈 8 + gradient accumulation step 8 ≈ 배치 사이즈 64
물론 시간 단축의 효과는 없다만 배치 사이즈가 높을수록 어떤 효과가 있는지는 알 거라 생각함