lora를 만들 때 10장 정도의 이미지로 학습을 시키려고 하는데요

BLIP Captioning으로 이미지의 텍스트를 뽑아내면 배경에 대한 텍스트도 함께 추출이 됩니다.

ex) 방바닥에서 찍은 고양이 사진 -> (영어로) 방바닥 위에 앉아 있는 고양이


이때 만약 고양이만 학습시키고 배경은 제외시키고 싶다면 어떤 방법이 있을까요?

직접 배경을 제거하고 대상만 남겨두는 방법도 있겠지만 고수분들은 따로 방법이 있으실 것 같아 궁금해서 여쭤봅니다!