https://the-decoder.com/googles-mixture-of-depths-uses-computing-power-more-efficiently-by-prioritizing-key-tokens/
https://arxiv.org/pdf/2404.02258.pdf

Google Deepmind 연구진은 변환기 모델의 컴퓨팅 성능을 보다 효율적으로 사용하는 방법인 "Mixture-of-Depths"를 도입했습니다.


전통적인 변환기 모델은 시퀀스의 각 토큰에 대해 동일한 양의 컴퓨팅 성능을 사용합니다. 이와 대조적으로 Google Deepmind의 "깊이 혼합"(MoD)을 사용하면 모델이 이 컴퓨팅 성능을 가장 필요한 토큰에 유연하고 선택적으로 배포할 수 있습니다.


이는 패스당 계산량에 대한 고정된 상한을 설정하여 수행됩니다. 예를 들어, 토큰의 최대 50%가 계산 집약적인 계산을 거치도록 허용됩니다. 각 블록에는 각 토큰의 가중치 값을 계산하는 "라우터"가 있습니다. 가중치가 높은 토큰은 계산을 위해 선택되고, 가중치가 낮은 토큰은 건너뜁니다. 훈련 중에는 가중치가 가장 높은 토큰 세트가 계산을 위해 선택됩니다.


나머지 토큰은 변경되지 않고 전달됩니다. 이러한 방식으로 계산 집약적인 단계는 필요하지 않은 토큰에 대해 건너뛸 수 있습니다. 모델은 어느 토큰에 어느 정도 계산이 필요한지 학습합니다.


Mixture-of-Deeps는 기본 모델 성능을 달성합니다.

예측당 필요한 FLOP가 크게 감소했음에도 불구하고 MoD 모델은 훈련 후 기준 모델의 성능을 유지하거나 초과할 수 있었습니다. 팀에 따르면 이는 변환기 모델에서 계산 리소스의 전통적인 배포가 항상 최적인 것은 아니며 보다 목표화된 계산 할당이 모델 성능을 향상시킬 수 있음을 시사합니다. 완전히 훈련된 AI 모델에 대한 쿼리는 이제 컴퓨팅 성능의 일부만 필요하며 최대 50% 더 빨라질 수 있습니다.


이 방법은 현재 널리 사용되는 전문가 혼합 아키텍처 와 결합될 수도 있습니다. MoD는 MoE를 보완하는 것으로 볼 수 있습니다. 두 접근 방식 모두 모델의 다양한 차원을 최적화하는 것을 목표로 하기 때문입니다.


컴퓨팅 성능을 동적으로 할당하여 보다 효율적으로 사용하는 기능은 컴퓨팅 시간과 리소스에 대한 수요가 높은 응용 분야에서 특히 유용할 수 있지만 추가 FLOP는 더 큰 모델을 교육하는 데 사용될 수도 있습니다. 연구원들에 따르면 후자는 메모리 절약 효과도 있다고 합니다. 일부 MoD 변형에는 더 적은 수의 가속기가 필요하므로 더 큰 모델로 확장할 때 이러한 효율성이 중요할 수 있음을 시사합니다.