제목에 적혀있는대로 이번 글에서는 인텔 내장그래픽으로 SDXL을 비롯한 그림AI를 굴리는 방법과 내가 대충 알아낸 최적화 세팅을 공유해볼거임

제목이 저런 이유는 술 몇잔 걸치고 생각하다가 저게 딱 떠올라서 그냥 적어봄

그리고 이번 글에서 설명하는 설치방법은 인텔 공식 디코 스레드중에 ComfyUI for Intel Arc using IPEX 스레드에 적힌 방법을 그대로 옮겨서 알려주는거임


일단 들어가기에 앞서 오늘의 희생양이 되어줄 내 컴퓨터 사양부터 까고 시작하겠음

참고로 노트북이고 올해 나온 LG그램 프로임

대충 여기 보이는것처럼 CPU는 인텔 코어 울트라 7이고 메모리 32기가, GPU는 인텔 아크 내장그래픽+RTX3050 4기가 글카가 박혀있음


물론 오늘 우리가 쓸건 맨 아래에 있는 RTX 3050이 아니라 위에 있는 아크 내장그래픽임

그리고 여기서 중요한게 아크같은 경우 장착되어있는 메모리의 50%까지 GPU 메모리로 사용하기 때문에 램이 최소 32기가는 되어야 그나마 덜 빡빡하게 AI를 돌릴 수 있을거라 보면됨



그럼 이제부터 어떻게 설치해야 하는지 하나씩 써보겠음

참고로 여기서 설명하는건 comfyui임 webui쪽은 Fooocus였나 뭐 하나 있는것 같았는데 그쪽은 안써봐서 몰?루니까 위에 디코가서 직접 읽어보고 깔아야 할듯



0. 사전 준비물

https://arca.live/b/aiart/79413719 이글 1,2번 단계 그대로 따라하고 오셈 


1. ComfyUI 폴더 다운로드

대충 내가 설치하려는 폴더로 가서


주소창에 cmd 치고 엔터 치면


이렇게 터미널이 열림


이제 터미널에 git clone https://github.com/comfyanonymous/ComfyUI 복사+붙여넣기 하고 엔터 누르면 저렇게 뜨면서 ComfyUI 폴더 다운로드가 끝남


2. 파이썬 가상환경 설치&라이브러리 다운로드


이제 cmd에 cd ComfyUI 입력해서 폴더로 이동하고


py -3.10 -m venv comfyui_env 입력해서 가상환경 생성해주고


comfyui_env/scripts/activate 입력해서


앞에 (comfyui_env)가 붙는 가상환경으로 진입하고


https://nekobox.ihbs02.workers.dev/mjq38i.txt 이 링크를 위에 띄워둔 이미지처럼 입력해서 파일 다운받던가 requirements-ipex-ultra.txt 로 이름 바꿔서 직접 파일 다운받던가 해서 넣고(클플 검열때문에 명령어를 치면 글이 안올라감)


pip install -r requirements-ipex-ultra.txt 입력해서 필요한 라이브러리 깔고


pip install -r requirements.txt 입력해서 나머지 라이브러리 깔고


python main.py --bf16-unet --bf16-vae 입력해서 실행하면 


http://127.0.0.1:8188/ 이 주소로 브라우저에 접속했을때 저렇게 성공적으로 로딩될거임


3. 모델 깔기


별건 없고 models 폴더에 들어가서


checkpoints 폴더에 원하는 모델


vae 폴더에 원하는 vae


나머지는 알아서 필요한것들 넣으면 됨


4. 서버 어떻게끔?

터미널창에 커서 올린 상태에서 Ctrl+C 동시에 누르면


꺼짐


5. 재실행할땐 어떻게함?

폴더 들어가서


경로에 cmd치고 엔터 쳐서


터미널 띄우고


comfyui_env/scripts/activate 입력해서


앞에 (comfyui_env)가 붙는 가상환경으로 진입하고


python main.py --bf16-unet --bf16-vae 입력해서 실행하면 됨



여기까지 착실히 따라왔으면 이제 내장그래픽으로 AI그림을 그릴 수 있을거임

이제 여기 아래로는 대충 이정도 속도가 나온다고 참고하라고 몇가지 예시 케이스 돌린거 올려봄

참고로 exif 다 살아있으니 자세한 세팅이 궁금하면 comfyui에 이미지 떨궈서 확인하면 될듯

Animagine3.1, Hyper-SD 적용, 8스텝, 1024x1536 해상도

생성하는데 모델 로딩 포함 152.30초 모델 프롬 안바꿔서 다시 그리기만 할 경우 61.65초정도 걸림

속도는 대략 5~6.5s/it 정도 나오는듯



comlardeshipXL-v7, 해상도 1024x1536, cfg 7, 28스텝 추론

모델 로딩부터 해서 총 걸린 시간 375.64초, 프롬 모델 다 안바꾸고 다시 그림 뽑는데만 걸린 시간은  296.54초

속도는 대충 9.89s/it 정도 나오는듯



Anything-V3.0, 해상도 512x768, cfg 7, 28스텝 추론

모델 로딩부터 해서 생성되는데 걸린시간 65.68초 모델 프롬 다 안바꾸고 생성에만 걸린시간 48.46초

대충 속도는 1.56s/it 정도 나오는듯


Animagine 3.1, 해상도 1024x768, TCD 적용, CFG 2.0, 10스텝 추론

모델 프롬 그대로 두고 새로 뽑는데 걸린시간 26.51초


속도는 26.51초 정도 나오는듯


총평 : 좀 많이 느리긴 하지만 그래도 해상도에서 타협을 보거나 LCM, TCD, Hyper-SD 등등의 퀄리티와 속도를 등가교환하는 여러 방법들을 총동원하면 1분 안으로 뽑을 수 있고 그런 방법 없이는 대충 5분정도 걸리면 된다 보면 될것같음

참고로 hires.fix같은거 잘못 쓰다간 재수없으면 브램이 터져버릴수가 있는데 그럼 서버 껐다켜야되니 본인이 원하는 작업에 맞춰서 잘 조절해야할듯?

근데 내장 글카로 이미지 1장당 1분정도면 상당히 쓸만한 속도 아닌가? 해상도에 따라 다르겠지만 기억하기로는 M1칩이 1장에 3.5분 정도 걸리는거로 기억하는데 이정도 해상도에 이정도 속도면 로컬쪽을 입문하려고 하는데 글카고 돈이고 다없는 사람은 한번 찍먹해볼만한 정도라 생각함


물론 컴퓨터가 최고RPM으로 비명을 지르기는 하는데 뭐 이정도로 갈구려면 그정도는 희생되야지

암튼 나중에 램 16긱까지 땡길 수 있는 NPU까지 연동되서 같이 추론을 돌리기 시작하면 상당히 써먹을만한 옵션이 될 수 있을거라 생각함