마소 엔지니어에게 GPT-6 트레이닝을 위한 클러스터 프로젝트에 대해 들었다. 그는 서로 다른 지역에 있는 GPU들에 인피니밴드 연결을 지원하는게 얼마나 어려운 일인지에 대해 자주 불평하였다. 

 

질문: 왜 클러스터들을 동일한 지역에 모아두지 않은거야?

마소 답: 아 우리도 처음에 그렇게 함. 근데 한 주(state)에 H100을 10만개 이상 놓으면 파워그리드 전체가 다운돼 버리더라고 
 

한 주에서 H100 10만개 이상을 쓰지 못해 클러스터를 구성 중이란걸 보면 수십만개 써서 트레이닝 중인가봄


찌라시라서 뉴스탭 땟음