https://arxiv.org/abs/2311.02265



residual connection을 인접한 레이어 간에만 끼우며 모든 레이어의 비중이 1인 현재 방식 대신,

직전의 모든 레이어와 직접 연결하고 각 연결의 비중은 학습 가능한 파라미터로 만들면 유의미한 성능 개선이 있었다는 논문입니다.


다만 논문 그대로 구현하면 학습은 몰라도 추론 시엔 모든 레이어에서의 결과값이 필요하다 보니 메모리가 많이 필요할 것 같은데,

실제로 적용한다면 비슷한 결과를 내는 변형이나 계산 트릭을 고안해야 될 것 같네요.

인접한 레이어 말곤 중요도가 크게 떨어진다면 그냥 x' = 0.9x + layer(x)처럼 거리에 따라 지수적으로 감소하도록 때우는 것도 고려해볼만할 수도요?