https://the-decoder.com/google-announces-gemini-1-5-pro-can-digest-an-hour-of-video-or-entire-code-bases-in-a-single-gulp/
https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/#sundar-note
https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf

Google은 AI 모델 라인에 대한 중요한 업데이트인 Gemini 1.5를 공개했습니다. 주요 특징은 전례 없이 길어진 토큰 컨텍스트 길이입니다.


Google에 따르면 Gemini 1.5는 새로운 전문가 혼합(MoE) 아키텍처를 통해 보다 효율적으로 훈련하고 배포할 수 있습니다. 구글 딥마인드의 CEO인 데미스 하사비스는 최신 세대의 첫 번째 모델인 Gemini 1.5 Pro가 Gemini 1.0 Ultra와 비슷한 성능을 제공하지만 컴퓨팅 파워는 덜 필요하다고 언급했습니다.


Gemini 1.5의 가장 획기적인 기능은 긴 컨텍스트 창입니다. 가장 먼저 출시되는 모델인 Gemini 1.5 Pro는 128,000토큰의 표준 컨텍스트 창이 제공됩니다. 하지만 제한된 개발자 및 기업 고객 그룹은 최대 100만 개의 토큰을 처리할 수 있는 버전을 먼저 이용할 수 있습니다. Google에 따르면 이를 통해 1시간 분량의 동영상, 11시간 분량의 오디오, 3만 줄 이상의 코드베이스 또는 70만 단어 이상의 문서와 같은 대용량 데이터 배열을 처리할 수 있게 될 것이라고 합니다. OpenAI의 GPT-4 Turbo는 128,000개의 토큰을 가지고 있으며, Anthropic의 Claude 2.1은 200,000개의 토큰을 가지고 있습니다. Google의 연구에서는 최대 1,000만 개의 토큰으로 모델을 테스트하여 방대한 양의 정보를 효과적으로 관리할 수 있는 능력을 입증했습니다.



https://www.youtube.com/watch?v=SSnsmqIj1MI


놀랍게도 "건초더미에서 바늘 찾기" 테스트에서 Gemini 1.5 Pro는 최대 100만 개의 토큰으로 이루어진 데이터 블록 내에서 목표 텍스트를 99% 찾아내어 "중간에서 길을 잃는" 현상을 해결했습니다. 예를 들어, 거의 하루 분량의 오디오에서 숨겨진 키워드를 찾아내는 데 완벽한 정확도를 달성했습니다. 또한 3시간 분량의 동영상 내 임의의 프레임에서 정보를 효과적으로 검색한다고 구글 제미니 팀은 기술 보고서에서 밝혔습니다.

Gemini 1.5 Pro는 Gemini 1.0 Ultra에 더욱 가까워졌습니다.


Gemini 1.5 Pro의 핵심 기능은 텍스트, 코드, 이미지, 비디오 및 오디오 양식의 광범위한 벤치마크에 걸쳐 확장됩니다. Google은 31개 벤치마크를 기준으로 Gemini 1.5 Pro가 Gemini 1.0 Pro보다 87.1%의 승률을, Gemini 1.0 Ultra보다 54.8%의 승률을 기록했다고 밝히고 있습니다. 새로운 모델은 수학, 과학 및 추론, 다국어, 비디오 이해 및 코드를 포함한 다양한 영역에서 향상된 성능을 보여줍니다.

https://www.youtube.com/watch?v=wa0MT8OwHuk

개발자와 기업 고객은 AI Studio와 Vertex AI를 통해 Gemini 1.5 Pro의 제한된 미리보기를 이용할 수 있습니다. Google은 테스트 단계에서 이 프리뷰를 무료로 제공하고 있지만, 실험적인 기능으로 인해 지연 시간이 길어질 수 있습니다. Google은 향후 모델의 컨텍스트 창 크기에 따라 가격 계층을 도입할 계획입니다.


"또한 모델이 더 넓은 범위로 출시될 준비가 되면 표준 128,000 토큰 컨텍스트 창을 갖춘 1.5 Pro를 도입할 예정입니다. 조만간 모델을 개선하면서 표준 128,000개의 컨텍스트 창에서 시작하여 최대 100만 개의 토큰까지 확장할 수 있는 가격 계층을 도입할 계획입니다."라고 Google 딥마인드 수석 과학자 Jeff Dean이 말했습니다.

Google이 실험 모델에서 100만 개 또는 천만 개의 토큰 컨텍스트 창을 사용하여 Gemini 1.5 모델 제품군의 정확도와 성능을 유지할 수 있다면, 이 모델과 다른 모델을 통해 과학 및 기타 영역에서 다중 모드 모델을 위한 새로운 애플리케이션을 사용할 수 있게 될 것입니다. 또한 Google이 Gemini 제품군을 매우 빠르게 반복할 수 있으며, Google과 OpenAI 및 Microsoft 간의 경쟁은 이제 막 시작되었음을 보여줍니다.