출처:https://www.wired.com/story/google-deepmind-gemini-pro-ai-upgrade/



Alphabet의  Gemini AI 모델은  공개된 지 두 달밖에 되지 않았지만 회사는 이미 업그레이드를 출시하고 있습니다.   오늘 제한적으로 출시되는 Gemini Pro 1.5는 이전 버전보다 더 강력하며 한 번에 엄청난 양의 텍스트, 비디오 또는 오디오 입력을 처리할 수 있습니다. 

새로운 모델을 개발한 Google DeepMind의 CEO인 Demis Hassabis는 입력에 대한 방대한 용량을 사람의 작업 기억과 비교합니다. 이는 그가 수년 전 신경과학자로서 탐구했던 것입니다.  "이러한 핵심 기능의 가장 큰 장점은 모델이 수행할 수 있는 일종의 보조적인 작업을 잠금 해제한다는 것입니다."라고 그는 말합니다. 

데모에서 Google DeepMind는 Apollo 11 통신 기록의 402페이지 PDF를 분석하는 Gemini Pro 1.5를 보여주었습니다.  모델은 유머러스한 부분을 찾도록 요청받았고 우주비행사가 통신 지연이 샌드위치 파손으로 인한 것이라고 말한 것과 같은 여러 순간을 강조했습니다.  또 다른 데모에서는 버스터 키튼 영화의 특정 행동에 대한 질문에 모델이 답하는 모습을 보여주었습니다.  이전 버전의 Gemini에서는 훨씬 더 짧은 양의 텍스트나 비디오에 대해서만 이러한 질문에 답할 수 있었습니다.  Google은 새로운 기능을 통해 개발자가 모델 위에 새로운 종류의 앱을 구축할 수 있기를 바라고 있습니다. 


Google DeepMind의 연구 과학자인 Oriol Vinyals는 "모델이 모든 단일 페이지, 모든 단일 단어에 대해 이러한 종류의 추론을 수행하는 방법은 정말 마법처럼 느껴집니다."라고 말합니다. 

Google은 Gemini Pro 1.5가 한 번에 1시간의 비디오, 11시간의 오디오, 700,000단어 또는 30,000줄의 코드를 수집하고 이해할 수 있다고 밝혔습니다. 이는  OpenAI의 GPT-4를  지원하는  ChatGPT를  포함한 다른 AI 모델보다 몇 배 더 많은 수치입니다 .   회사는 이 성과에 대한 기술적 세부 사항을 공개하지 않았습니다.   Hassabis는 Google DeepMind 연구원이 테스트한 대량의 텍스트를 처리할 수 있는 모델의 용도 중 하나가 수천 개의 메시지에 대한 Discord 토론에서 중요한 내용을 식별하는 것이라고 말합니다. 

Gemini Pro 1.5는 여러 인기 벤치마크의 모델 점수로 측정했을 때 적어도 크기에 비해 성능이 더 뛰어납니다.  새로운 모델은 더 많은 컴퓨팅 성능을 요구하지 않고도 더 많은 성능을 끌어내기 위해 Google 연구원들이 이전에 발명한 기술을 활용합니다.  전문가 혼합이라고 불리는 이 기술은 주어진 작업을 해결하는 데 가장 적합한 모델 아키텍처의 일부를 선택적으로 활성화하여 훈련 및 실행을 보다 효율적으로 만듭니다. 


Google은 Gemini Pro 1.5가 상당히 작은 모델임에도 불구하고 많은 작업에서 가장 강력한 제품인 Gemini Ultra만큼 능력이 있다고 말합니다.  Hassabis는 Gemini Pro를 개선하는 데 사용된 동일한 기술을 Gemini Ultra를 향상하는 데 적용할 수 없는 이유가 없다고 말합니다. 


Gemini Pro의 업그레이드 버전은 모델 기능 테스트를 위한 샌드박스인 AI Studio를 통해 개발자에게 제공되며 Google의 Vertex AI 클라우드 플랫폼 API를 통해 제한된 수의 개발자에게 제공됩니다.  아직 일반 출시 날짜가 없습니다. 

Google은 또한 모델의 비디오 및 오디오 구문 분석 기능을 활용하는 새로운 방법을 포함하여 개발자가 애플리케이션에서 Gemini를 사용할 수 있도록 돕는 새로운 도구를 출시합니다.  또한 회사는 AI가 코드를 디버깅하고 테스트하는 방법을 포함하여 웹 기반 코딩 도구인 Project IDX에 새로운 Gemini 기반 기능을 추가하고 있다고 밝혔습니다. 

 의 성공으로 시작된 격렬한 AI 경쟁의 신호입니다 Gemini의 업그레이드 속도는 ChatGPT  .   이번 주 초, OpenAI는  기억할 수 있는 기능을 제공한다고  ChatGPT에 장기간에 걸친 대화에서 유용한 정보를  발표했습니다.  지난주  Google은 챗봇 Bard의 브랜드를 변경  하고 Gemini Ultra를 유료 구독으로 사용할 수 있다고 발표했습니다. 

생성 AI의 열광적인 발전 속도는 기술이 초래할 수 있는 위험에 대한 우려와 상충됩니다.  Google은 Gemini Pro 1.5에 대해 광범위한 테스트를 실시했으며 제한된 액세스를 제공하면 잠재적 위험에 대한 피드백을 수집할 수 있다고 밝혔습니다.  이 회사는 또한 영국의 AI 안전 연구소(AI Safety Institute)의 연구원들에게 가장 강력한 모델에 대한 액세스를 제공하여 테스트할 수 있도록 했다고 밝혔습니다. 

Hassabis는 앞으로 몇 달 안에 더 많은 발전이 있을 것으로 기대한다고 말했습니다.  "이것은 새로운 흐름입니다. 저는 일종의 스타트업 사고방식을 가져오려고 노력하고 있습니다."라고 그는 말합니다. 


구글 잼민이 요약 


키 포인트     Gemini Pro 1.5 출시: Google의 DeepMind는 대량의 텍스트, 비디오 및 오디오 입력 처리가 크게 개선된 Gemini AI 모델의 업그레이드 버전을 출시했습니다.     향상된 기능: Gemini Pro 1.5는 긴 PDF 사본, 전체 길이의 영화 또는 특정 세부 사항이나 유머에 대한 수천 줄의 코드와 같은 자료를 분석할 수 있습니다.  이 향상된 용량은 새로운 유형의 AI 기반 애플리케이션에 영감을 주기 위한 것입니다.     효율성 및 성능: Google은 "전문가 혼합"이라는 기술을 사용하여 Gemini Pro 1.5를 최적화하여 성능 저하 없이 더 작고 효율적으로 만들었습니다.     가용성 및 도구: Gemini Pro 1.5에 대한 제한된 액세스는 AI Studio 및 Google의 Vertex AI를 통해 개발자에게 부여됩니다.  Google은 또한 개발자가 이 모델을 활용하는 데 도움이 되는 도구를 출시하고 있습니다.     AI 개발 경쟁: Gemini Pro 1.5의 빠른 출시는 ChatGPT의 성공으로 촉발된 생성 AI 분야의 치열한 경쟁을 강조합니다.     안전 고려사항: Google은 엄격한 테스트와 AI 안전에 중점을 둔 연구 기관과의 협력을 통해 AI 안전 문제를 해결하고 있습니다.