transformer 모듈에 붙는 lora rank와 똑같이 conv layer에 같은 rank로 적용하면


용량이 두 배가 되는데 학습된 결과물은 거의 비슷함


그래서 일부러 conv rank 바꿔보면서 학습 해보고


optimizer도 바꾸고 해보는데 늘어나는 용량 대비 효과는 잘 몰?루겟슴