검색해보니 vllm같은 경우 병렬처리시 엑스라마 같은것보다 더 빠르다고 들었습니다.


엑스라마 같은 경우 api로 운영시에 동시 요청이 들어오면 큐형식으로 먼저 들어온것을 처리하고 그 뒤에 다음 요청을 처리하는것 같은데요.


vllm은 동시에 처리해도 속도가 비슷하다고 하는데 원리가 이해가 안됩니다. 


예를들어 엑스라마 같은 경우 10건이 동시에 요청이 들어왔고 처리할때 총 100초가 걸렸다고 하면(1개당 10초씩 잡으면)


vllm으로 하면 10건이 동시에 들어오면 100초보다 훨씬 빠르게 처리가 되는건가요?(같은 gpu, cpu 환경 가정시)


제가 제대로 이해한게 맞는걸까요?


글고 마지막으로 vllm도 혹시 로라 사용이 가능한가요?