From Transcripts to AI Chat: An Experiment with the Lex Fridman Podcast

QLoRA fine-tuning, OpenLLaMa, podcast transcripts

by Geronimo


렉스 프리드먼(Lex Fridman)의 팟캐스트 대본을 데이터셋으로 만들어 

언어모델을 학습시킨 경험을 정리한 후기.


base로 쓰인 모델은 OpenLLaMa 7B이며, 

데이터셋은 기본적으로 raw text 형식을 사용, 

파인튜닝에는 QLoRA를 채택.


팟캐스트에서 내용을 추출하는 것부터 시작해서 

시행착오를 거쳐가며 QLoRA로 튜닝하는 과정까지 

자세하게 기록되어 있기 때문에 

AI 학습에 관심이 있다면 참고할 만한 기사. 




64bits / LexPodLM-13B

동일인인지 확신할 수는 없지만 

이 자료에 있는 모델, 데이터셋도 동일한 테마로 작성됨.