M2 ultra 192GB 로 트레이닝을 돌려 보기는 하는 중인데. 느리긴 진짜 느림..
mlx 로 풀파인튠은 대충 Phi-2 2-3B 정도가 그래도 풀파인튠으로는 쓸만한(?) 수준인것 같고 그 이상은 영 아님... 그래도 풀파인튠이 일단 되긴 됨... 대충 배치 20에 700-800토큰/초 정도 나오긴 함. 그 이상은 LoRA 인데 뭐 LoRA가 가능은 한데 영 써먹질 못하는 수준..
솔직히 이정도면 엔비디아 였으면 맥으로 하루짜리 작업이 A100/H100 으로는 십몇분컷일거 같긴 함... 퍼포먼스는 대충 그정도의 차이...
추론엔 아주아주 좋음.... VRAM을 팡팡 땡겨 쓸수 있는거 아주 끝내줍니다
맥 초창기에, mlx나오기 전에는 대충 40토큰/초 정도 이던게(물론 모델이 5-7B정도긴 했지만) 일단 mlx로 나오고 난후에는 10배쯤 올라가긴 했는데. 근데 다른 엔비디아도 더 빨라진 상황이고.
일단 맥에는 bitsandbyte도 없고 딥스피드도 당연히 없고... 뭐 torch mps구현도 풀스펙이 아니라서, 추론은 쓸만한데 트레이닝은 영 아닙니더,...