한국 유튜브 transcription 데이터셋 - Ai 언어모델 로컬 채널

Ai 언어모델 로컬 채널

알림 알림 중 알림 취소

구독자 3534명 알림수신 174명 @바바리맨

제한없는 언어모델을 위한 채널

일반 한국 유튜브 transcription 데이터셋

추천 55 비추천 2 댓글 11 조회수 2037 작성일 2024-05-17 06:45:10

https://arca.live/b/alpaca/106409170

한국 유튜브 영상 1.1만개 가량을 transcription한 데이터셋입니다.

WhisperX를 사용했습니다. (large-v3 이용)

a100 8대에서 하루에 2만개 정도 transcription 됩니다.
동영상 목록을 받아오는 구글 API가 ratelimit 계속 걸려서 많이 못 만들었습니다.

그 후 WizardLM2 8x22b 사용해서 augment 진행했습니다.

https://huggingface.co/datasets/maywell/ko_youtube_transcription_sample

댓글 [11] 글쓰기

2024-05-17 06:52:27 답글

와 synthetic 아닌 데이터셋이다!

펼쳐보기▼

2024-05-17 06:53:06 답글

무한한 개추

펼쳐보기▼

ㅇㅇ (210.91)

2024-05-17 07:57:16 삭제 수정 답글

눈물의 추천, 마침 첫번째 row부터 생활 코딩이네요

펼쳐보기▼

2024-05-17 09:02:56 답글

2024-05-17 09:11:06 답글

llm 말고도 너무 활용도 높은 데이터 같네요

펼쳐보기▼

2024-05-17 09:11:18 답글

2024-05-17 09:26:49 답글

hkhk

2024-05-17 09:50:15 답글

수고 많으셨습니다. 원기옥 프로젝트로 여러 계정이 나눠서 스크립트 긁어모으고 추출하기 하면 더 많이 모을 수 있을거 같은데..

펼쳐보기▼

ㅇㅇ (39.7)

2024-05-18 03:16:07 삭제 수정 답글

오호

펼쳐보기▼

2024-05-19 13:11:17 답글

용바오 (1.235)

2024-05-21 00:59:13 삭제 수정 답글

잘먹겠습니다

펼쳐보기▼

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 질문 정보 학습 자료 자작모델 스터디 공지 운영 공모

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 31384937

공지 Ai 언어모델 로컬 채널 이용규정

바바리맨 2023.04.18 6281

공지 뉴비에게 도움 되는 글 모음

바바리맨 2023.04.18 28565

공지 언어모델 관련 정보취득 /무료체험 가능 사이트

바바리맨 2023.04.18 9483

공지 여러분의 학습에 도움을 줄 수 있는 하드웨어 지원

바바리맨 2023.08.01 5480

공지 신문고

바바리맨 2023.04.18 2363

숨겨진 공지 펼치기(1개)

4338 질문 vllm을 이용해서 로컬 LLM구축하려고하는데 GUI로 구축할 수 있는 방법이 있을까요? [10]

AI마스터_되고시프다 2024.06.12 752 1

4337 질문 RAG 답변 생성에고 인용(출처) 문제 질문 있습니다. [11]

ㅇㅇ (61.33) 2024.06.12 607 2

4336 일반 이건 어떤건가요? [4]

이게머고 2024.06.12 536 0

4335 질문 완전 문외한이라 핑프 같은 질문 미안한데 [7]

ㅇㅇ 2024.06.12 643 2

4334 일반 outlier.ai라는곳이 있네요 ai 학습시키는 사람들 모집하는곳 [7]

ㅇㅇ 2024.06.12 718 0

4333 일반 RecurrentGemma 9B 출시

ET 2024.06.11 542 8

4332 일반 sglang 좋네요 [2]

감별사 2024.06.11 561 5

4331 일반 VRAM 이 부족하면 RAM 에 모델에 필요한 메모리를 할당하는 방법도 있나요? [4]

ovp 2024.06.11 588 0

4330 일반 Qwen2 72B 라이센스 GPT4o 물어봄 [3]

zzzzz5 2024.06.11 729 3

4329 질문 공부하다가 궁금한게 생겨서 질문드립니다 [1]

ㅇㅇ 2024.06.11 299 0

4328 일반 눕질문) ollama 에서 70b모델 돌리고 싶은데 가능할까요? [7]

ㅇㅇ (121.150) 2024.06.11 557 0

4327 일반 병렬로 처리 하는 방법이 있을까요? [11]

ㅇㅇ (106.101) 2024.06.11 530 2

4326 일반 젬마2를 내놔 [3]

ㅇㅇ 2024.06.10 499 3

4325 일반 TRPG NPC(AI)들과의 프리토킹에 적합한 모델은? [2]

다시마주먹밥 2024.06.10 391 2

4324 일반 mi300x 나 mi300a 써보신분 계실까요? [9]

ㅇㅇ (223.38) 2024.06.10 377 1

4323 일반 CONTEXT를 주어주고 질문 할때 답변 오류 현상 [10]

ㅇㅇ (106.101) 2024.06.10 289 0

4322 질문 arc a770 2대 이상으로 구성하신 분 계실까요? [9]

bedovyy 2024.06.10 444 1

4321 질문 Llama 70b mac 인퍼런스 [8]

ㅇㅇ (118.235) 2024.06.10 527 0

4320 질문 Inference용 PC 구성 질문입니다 [24]

ㅇㅇ (1.247) 2024.06.10 552 1

4319 질문 뉴비 질문이 있습니다. [8]

tokai 2024.06.10 348 1

전체글 개념글

사용하고 계신 브라우저가 시간대 설정을 지원하지 않으므로 GMT 시간대가 적용됩니다.