![](http://ac.namu.la/20230322sac/9429c77a19766a570dc7ab23560fde627a7b1d4462aac758212dfedd1e19638e.jpg?expires=1719795600&key=T03PWk5S-ziLtVwjXb_mHQ)
https://github.com/VikParuchuri/marker?tab=readme-ov-file
이런 라이브러리들 써봐도 영 ... parsing 할 때 중간중간에 글자 짤린다거나
문단을 어긋나게 인식한다던가 문제가 많네요.
결국에는 고품질 데이터를 얻기 위해서는
노가다가 필수인듯 하네요.
혹시 다른 좋은 오픈소스 있으려나요?
지금은
https://github.com/DS4SD/DocLayNet
이거로 제가 직접 pdf 를 분석하는 스크립트를 만들어야만 할 거 같습니다.
예전에 논문 번역기 용으로 써봤는데 레이아웃은 훌륭히 인식하더라구요.
만족스러운게 좀 없네요...