Groq의 AI 칩은 LLM을 가속화하고 거의 실시간으로 텍스트를 생성합니다.

https://the-decoder.com/groqs-ai-chip-turbocharges-llms-and-generates-text-in-near-real-time/
https://groq.com/

언어 모델은 사람에 비해 엄청나게 빠른 속도로 텍스트를 생성할 수 있습니다. 하지만 스타트업 Groq과 같은 일부 기업에게는 이 속도가 충분하지 않습니다.

더 빠른 성능을 달성하기 위해 Groq은 특수 하드웨어를 개발했습니다: 바로 LPU(언어 처리 장치)입니다.

이러한 LPU는 언어 모델을 실행하도록 특별히 설계되었으며 초당 최대 500 토큰의 속도를 제공합니다. 이에 비해 상대적으로 빠른 LLM인 Gemini Pro와 GPT-3.5는 로드, 프롬프트, 컨텍스트 및 전달에 따라 초당 30~50개의 토큰을 관리합니다.

LPU 시스템 카테고리의 첫 번째 "GroqChip"은 성능, 효율성, 속도 및 정확성을 위해 설계된 "텐서 스트리밍 아키텍처"를 사용한다고 Groq은 말합니다.

이 스타트업에 따르면 기존의 그래픽 처리 장치(GPU)와 달리 이 칩은 일정한 지연 시간과 처리량을 가능하게 하는 단순화된 아키텍처를 제공합니다. 이는 게임과 같은 실시간 AI 애플리케이션에 유리할 수 있습니다.

LPU는 또한 에너지 효율이 더 높다고 Groq은 말합니다. 여러 스레드를 관리하는 데 필요한 노력을 줄이고 코어의 저활용을 방지하여 와트당 더 많은 계산을 수행할 수 있습니다.

Groq의 칩 설계를 통해 GPU 클러스터와 관련된 기존의 병목 현상 없이 여러 TSP를 연결할 수 있습니다. 그로크는 이를 통해 시스템을 확장할 수 있고 대규모 AI 모델에 필요한 하드웨어 요구 사항을 간소화할 수 있다고 설명합니다.

Groq의 시스템은 일반적인 머신 러닝 프레임워크를 지원하므로 기존 AI 프로젝트에 쉽게 통합할 수 있습니다. Groq은 하드웨어를 판매하며 Mixtral과 같은 오픈 소스 모델이 포함된 클라우드 API도 제공합니다. 여기에서 Mixtral과 Llama로 Groq의 속도를 테스트할 수 있습니다.

LPU는 AI 애플리케이션의 배포를 개선하고 현재 널리 사용되고 있지만 공급이 부족한 엔비디아의 A100 및 H100 칩에 대한 대안을 제공할 수 있습니다.

하지만 현재로서는 LPU는 추론, 즉 AI 모델을 실행하는 데만 작동합니다. 모델을 학습시키려면 기업들은 여전히 엔비디아 GPU 또는 이와 유사한 칩이 필요합니다. Groq은 Google에서 TPU 칩을 개발했던 조나단 로스가 2016년에 설립한 회사입니다.