별 의미는 없을거같긴 한데 완전히 같은 구조라면 weight의 가중 평균을 내는 식으로 가능은 할듯

원래라면 의미 없는 가중치를 버리는 식으로 distillation을 할수있으면 좋을거같은데 이건 논문주제고...