document layout parsing 은 마음에 드는 게 도통 없네요..

Ai 언어모델 로컬 채널

알림 알림 중 알림 취소

구독자 3551명 알림수신 174명 @바바리맨

제한없는 언어모델을 위한 채널

일반 document layout parsing 은 마음에 드는 게 도통 없네요..

감별사

추천 4 비추천 1 댓글 10 조회수 672 작성일 2024-05-27 06:46:48

https://arca.live/b/alpaca/107259568

https://github.com/VikParuchuri/marker?tab=readme-ov-file

이런 라이브러리들 써봐도 영 ... parsing 할 때 중간중간에 글자 짤린다거나

문단을 어긋나게 인식한다던가 문제가 많네요.

결국에는 고품질 데이터를 얻기 위해서는

노가다가 필수인듯 하네요.

혹시 다른 좋은 오픈소스 있으려나요?

지금은

https://github.com/DS4SD/DocLayNet

이거로 제가 직접 pdf 를 분석하는 스크립트를 만들어야만 할 거 같습니다.

예전에 논문 번역기 용으로 써봤는데 레이아웃은 훌륭히 인식하더라구요.

만족스러운게 좀 없네요...

댓글 [10] 글쓰기

1945Y

2024-05-27 06:47:27 답글

능력자.. ㄷㄷㄷ

펼쳐보기▼

감별사

2024-05-27 06:50:51 답글

아뇨 능력자라뇨.. 여기 분들에 비하면 전공도 컴퓨터도 아니고 ... 그냥 복붙이에요 ㅠ

펼쳐보기▼

조슈아준

2024-05-28 06:32:58 답글

*수정됨

DocLayNet은 오픈소스가 아닌건가요?아 그냥 Data set 이군요

펼쳐보기▼

감별사

2024-05-28 06:39:30 답글

맞아요. 근데 제가 알기로는 DocLayNet 은 bbox 에 있는 element 가 plain text 인지, title 인지, table 인지, figure 인지만 알려주는거고 그 이상은 알아서 해야합니다
https://github.com/VikParuchuri/marker
이 링크에 있는 것도 DocLayNet 을 쓰는 지는 정확힌 모르겠지만 PDF to Markdown 이 형편없어서 좀 당황스럽네요.
심지어 영어로 된 pdf 임에도 불구하고..

GitHub

GitHub - VikParuchuri/marker: Convert PDF to markdown quickly with high accuracy

Convert PDF to markdown quickly with high accuracy - VikParuchuri/marker

맞아요. 근데 제가 알기로는 DocLayNet 은 bbox 에 있는 element 가 plain text 인지, title 인지, table 인지, figure 인지만 알려주는거고 그 이상은 알아서 해야합니다
https://github.com/VikParuchuri/marker
이 링크에 있는 것도 DocLayNet 을 쓰는 지는 정확힌 모르겠지만 PDF to Markdown 이 형편없어서 좀 당황스럽네요.
심지어 영어로 된 pdf 임에도 불구하고..

펼쳐보기▼

감별사

2024-05-29 04:42:01 답글

아 제가 쓰는건 DocXChain 인가 보네요 ㅋㅋ 이름이 헷갈려서...

펼쳐보기▼

기어오는바닷가재

2024-05-29 04:37:47 답글

https://github.com/huridocs/pdf-document-layout-analysis/tree/main?tab=readme-ov-file

요건 어떠신지

GitHub

GitHub - huridocs/pdf-document-layout-analysis: PDF document layout analysis

PDF document layout analysis. Contribute to huridocs/pdf-document-layout-analysis development by creating an account on GitHub.

요건 어떠신지

펼쳐보기▼

감별사

2024-05-29 04:44:19 답글

벤치마크가 대단한데요? 한 번 써볼게요 감사합니다.

펼쳐보기▼

감별사

2024-05-29 05:38:05 답글

와 이거 엄청 좋네요;;ㄷㄷ 페이지 y값 중간에 title 박혀있어도 제대로 된 순서대로 list 로 반환해주네요

펼쳐보기▼

기어오는바닷가재

2024-05-29 05:47:52 답글

ㅇㅇ (106.101)

2024-05-31 07:58:44 삭제 수정 답글

이것도 텍스트 누락되거나 아예못읽는 문서가 많네요

펼쳐보기▼

글쓰기

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 질문 정보 학습 자료 자작모델 스터디 공지 운영 공모

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 32043814

공지 Ai 언어모델 로컬 채널 이용규정

바바리맨 2023.04.18 6367

공지 뉴비에게 도움 되는 글 모음

바바리맨 2023.04.18 28877

공지 언어모델 관련 정보취득 /무료체험 가능 사이트

바바리맨 2023.04.18 9624

공지 여러분의 학습에 도움을 줄 수 있는 하드웨어 지원

4385 일반 의외의 OCR분야 가성비인 gemini flash [8]

감별사 2024.06.25 268 10

4384 일반 기대되는 양질의 강의 [2]

zzzzz5 2024.06.25 188 7

4383 일반 왜 데이터 포맷을 개 좆대로 적어두나요? [1]

ㅇㅇ (58.230) 2024.06.25 295 2

4382 일반 V100과 Cuda 11.7에서 어떤 로더를 사용해야 할까요 [1]

ㅇㅇ (211.168) 2024.06.25 132 0

4381 정보 [일부리뷰] LLM 훈련 데이터(합성 데이터)를 생성하는 nvidia Nemotron 리뷰

ㅇㅇ (58.234) 2024.06.24 214 8

4380 일반 여기는 비전쪽은 안다루나요 [4]

ㅇㅇ (222.113) 2024.06.24 297 1

4379 스터디 알파고는 어떻게 만들었을까 (Feat. Monte Carlo Tree Search) [7]

hkhk 2024.06.24 339 13

4378 질문 우바부가 같은 거 말고 로컬에다 LLM 설치하고 API 형식으로 [3]

유동닉 2024.06.24 241 0

4377 일반 일리야 수츠케버가 설립한 SSI Inc 홈페이지 내용

키릴로차 2024.06.23 404 3

4376 일반 NVidia에서 최근 공개한 오픈소스 로컬 Nemotron 340b 사용 가능한 사이트 [7]

ㅇㅇ 2024.06.23 634 2

4375 질문 [MMLU-PRO] Qwen2 72B chat 과 Qwen2 72B 32k 의 차이점? [2]

ㅇㅇ (222.101) 2024.06.23 399 0

4374 일반 RTX3060 vs ARC A770 (llama.cpp, vllm) [4]

bedovyy 2024.06.22 430 8

4373 일반 LogicKor 리더보드 업데이트 예정 및 모델 평가 요청 [5]

maywell 2024.06.21 694 19

4372 질문 흠 raft는 영어 데이터셋조차 허깅페이스에 없는거같은 느낌이네요... [1]

lIlBrother 2024.06.21 301 0

4371 정보 번역LLM을 C#에서 쓸 수 있게 라이브러리화 해봤음 [4]

12시5분 2024.06.21 666 19

4370 질문 13700k +4090 본체 팔아도 3090 2way본체 사려면 200은 더있어야겠죠? [5]

호옹이 2024.06.21 437 0

4369 질문 PC 듀얼 3090 구성과 관련해서 [4]

필굿 2024.06.21 364 0

4368 일반 chameleon-7B 후기 [7]

ㅇㅇ 2024.06.20 753 7

4367 스터디 In-Context Editing: 스스로 유도해낸 분포로 학습시키기 [2]

hkhk 2024.06.20 661 11

4366 일반 런팟+vLLM+Marlin+배치 번역작업 GPU가성비 표 [15]

가취 2024.06.20 668 11

글쓰기

전체글 개념글

사용하고 계신 브라우저가 시간대 설정을 지원하지 않으므로 GMT 시간대가 적용됩니다.