https://github.com/VikParuchuri/marker?tab=readme-ov-file


이런 라이브러리들 써봐도 영 ... parsing 할 때 중간중간에 글자 짤린다거나

문단을 어긋나게 인식한다던가 문제가 많네요.

결국에는 고품질 데이터를 얻기 위해서는

노가다가 필수인듯 하네요.

혹시 다른 좋은 오픈소스 있으려나요?


지금은

https://github.com/DS4SD/DocLayNet

이거로 제가 직접 pdf 를 분석하는 스크립트를 만들어야만 할 거 같습니다.

예전에 논문 번역기 용으로 써봤는데 레이아웃은 훌륭히 인식하더라구요.

만족스러운게 좀 없네요...