2060이면 본인 장비로는 안되실테니 런팟 같은곳에서 GPU 대여를 추천드립니다.
돈이 좀 있다 싶으시면 a100 같은걸 대여해서 큰 모델인 라마 70b나 커맨드 같은 큰 모델을 돌리실 수 있겠지만
그게 아니시라면 작은 모델인 솔라나 라마 7~8b를 돌리시는게 좋을거에요
본인 데이터로 RAG가 아니라 학습까지하고싶으신거면 LoRa 파인튜닝을 추천드립니다.
근데 어떤 방식으로 학습시키냐에 따라 데이터 가공이 다 되있으셔야해요.
예를 들어 지도방식인 sft 학습을 시키실거면 데이터가 질문, 대답으로 되있으셔야하고 DPO로 하신다하면 질문, 틀린대답, 맞는대답 이런식으로 이루어져 있어야합니다.
자동 완성이라는게 문장에서 특정 칸이 비어져 있다면 그 문장을 추측해서 맞추는걸 말씀하시는거져?
거기에만 딱 맞추고 싶다면 데이터를 가공해서 빈칸을 만든뒤 거기에 알맞는걸 고르라하고 보기를 준 뒤
정답도 뒤에 써놓으신걸 학습시키시면 됩니다.
하지만 이 방법은 데이터 가공에 인력과 시간이 많이 들기때문에 보통 비슷한 오픈데이터 중 추려오거나
밴치마크 항목 중 문장 완성과 관련된게 높은 모델에 학습시키는걸 추천드립니다