https://the-decoder.com/metas-v-jepa-is-yann-lecuns-latest-foray-into-the-possible-future-of-ai/
https://ai.meta.com/research/publications/revisiting-feature-prediction-for-learning-visual-representations-from-video/
https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-joint-embedding-predictive-architecture/
https://github.com/facebookresearch/jepa

Meta는 새로운 AI 모델인 비디오 조인트 임베딩 예측 아키텍처(V-JEPA)를 도입했습니다. 이는 AI의 물리적 세계를 이해하고 상호 작용하는 능력을 향상시키기 위한 일반적인 JEPA 아키텍처에 대한 Meta의 연구의 일환입니다.


메타의 부사장 겸 수석 AI 과학자인 얀 르쿤과 그의 팀이 개발한 V-JEPA는 유아가 물체가 떨어지는 것을 보고 중력에 대해 배우는 것처럼 동영상 내에서 복잡한 상호작용을 예측하고 이해하도록 설계되었습니다. 이 모델은 각 픽셀을 재구성하는 것이 아니라 장면의 추상적 표현을 해독하여 비디오에서 누락되거나 가려진 부분을 채우는 방식으로 작동하며, 이는 우리가 머릿속에서 이미지를 처리하는 방식과 유사하다고 Meta는 설명합니다.


V-JEPA의 기본 개념은 더 높은 수준의 개념적 공간에서 예측을 수행하여 관련 없는 세부 사항에 얽매이지 않고 작업을 이해하고 완료하는 데 중요한 것에 집중할 수 있어야 한다는 것입니다. 예를 들어, 비디오에서 나무를 인식할 때 모델은 각 잎의 움직임을 고려할 필요가 없습니다.



이 모델의 학습에는 비디오의 상당 부분을 숨기는 마스킹 방법이 사용되며, V-JEPA는 공간과 시간에서 일어나는 일을 예측하여 장면의 역학 관계를 학습합니다. 이 마스킹은 무작위가 아니라 모델이 단순한 추측을 통해 학습하는 것이 아니라 사물이 상호 작용하는 방식을 이해하도록 신중하게 설계되었습니다. 이 모델은 2백만 개의 동영상으로 훈련되었습니다.


이 모델의 강점 중 하나는 핵심 모델을 재 학습 하지 않고도 새로운 작업에 적응할 수 있다는 점입니다. 기존에는 AI 모델을 미세 조정해야 했기 때문에 전체 아키텍처가 한 가지 작업에 특화되어 다른 작업에는 비효율적이었습니다. 반면 V-JEPA는 한 번만 사전 학습한 다음 작업별 레이어를 추가하기만 하면 작업 분류나 객체 상호 작용 감지 등 다양한 작업에 맞게 조정할 수 있습니다.


메타의 팀은 앞으로 V-JEPA의 기능을 오디오로 확장하고 더 긴 시간 동안 계획하고 예측하는 능력을 향상시킬 수 있는 잠재력을 보고 있습니다. 현재는 단기적인 동작 인식에 탁월하지만, 장기적인 예측은 추가 연구가 필요한 분야입니다.


더 큰 포부를 가진 LeCun의 JEPA


LeCun은 복잡한 데이터로부터 학습하고 다양한 추상화 수준에서 예측해야 하는 과제를 해결하기 위해 2022년에 JEPA 아키텍처를 도입했습니다. 2023년에 그의 팀은 첫 번째 모델인 I-JEPA를 도입했는데, 이는 최소한의 레이블이 지정된 데이터로 ImageNet에서 인상적인 성능을 발휘했습니다.


현재의 기능을 넘어, 공동 임베딩 예측 아키텍처(JEPA)는 자율 인공 지능을 뒷받침할 수 있는 포괄적인 세계 모델을 구현하려는 더 넓은 포부를 가지고 있습니다. 르쿤은 하위 수준 예측의 상위 수준 추상화를 생성하기 위해 JEPA 모델을 계층적으로 쌓아 올리는 것을 구상하고 있습니다. 궁극적인 목표는 이러한 모델이 미래의 사건에 대해 공간적, 시간적 예측을 할 수 있도록 하는 것이며, 이 과정에서 비디오 트레이닝이 중요한 역할을 합니다.