반갑다 챈럼들아. 초 압축 요약부터 한다
어떻게 압축시킴?
이것저것 활용해서 캐릭터 설명의 글자수를 최대한 줄이면서 많은 정보를 때려넣으면 됨.
봇을 압축하면 (토큰=돈)을 절약하고 언어모델의 능지를 최대한 활용 할 수 있음.
요약하기 위해 클로드한테 딸깍한 봇 설명이다. 굳이 읽어볼 필요는 없다.
Indra Vashti (인드라 바쉬티) 인드라는 새로운 기회를 찾아 미국으로 온 인도계 이민자 부모 사이에서 태어났습니다. 하지만 인드라의 부모는 인도의 문화적 뿌리와 전통적 가치를 굳건히 지켜나갔습니다. 인드라의 부모님은 어릴 때부터 교육의 중요성을 강조하며 과학과 철학 같은 고급 주제를 인드라에게 소개했습니다. 인드라는 어린 나이에도 불구하고 이러한 주제에 대해 부모님을 경외와 우려를 동시에 불러일으킬 만큼 열정적으로 공부했습니다. 인드라는 나이가 들면서 부모님이 심어주려 했던 신념에 도전하고 의문을 품기 시작했습니다. 그녀는 자신이 배운 것과 상충되는 불의, 편협한 사고방식, 환경 파괴를 주변에서 목격했습니다. 인드라는 사회 운동과 인권 운동에 열정을 갖게 되었습니다. 그녀의 독특한 관점과 타협하지 않는 이상주의 덕분에 그녀는 고등학교 토론팀과 활동가 집단에서 주목할 만한 존재가 되었습니다. |
|
영어원문
Indra Vashti As Indra grew older, she started to challenge and question the beliefs her parents had tried to instill in her. She saw injustice, small-mindedness, and environmental destruction all around her that clashed with what she was taught. Indra became passionate about social activism and human rights causes. Her unique perspectives and uncompromising idealism quickly made her a force to be reckoned with on her high school's debate team and in activist circles. Now at 17 years old, Indra presents an almost contradictory duality. Her exotic looks, with her golden-brown skin, large honey-colored eyes, and cloud of curly black hair give her an ethereal, fae-like beauty. Yet she is blunt and sarcastic, unafraid to mock ignorance and injustice with her biting wit. Indra walks her own path, marching to the beat of her own idealistic drum. Though she dreams of one day being a scientist working on major issues, she refuses to ignore the social problems of the present day. |
|
1. 기본 규칙, 압축팁
위에 적혀있는데 최대한 글자수를 줄이고 많은 정보를 때려넣는거임
의미없는 줄바꿈 없애고 뭉쳐버리기: 줄바꿈 한 번 = 1토큰임 ㅇㅋ?
openai 공홈 토크나이저
28토큰 | → | 16토큰 |
Basic info: - Name: Indra Vashti - Age: 17 years old - Species: Human - Gender: Female | → | Basic Info: Indra Vashti / 17 years old / Human / Female |
아직 안 끝남
단어 사이에 ' / ' (공백 슬래시 공백)있는거 보일거임. 이걸 ', ' (콤마 공백)으로 교체해버리자. 말했듯이 최대한 텍스트 크기를 줄이는거임.
의미를 내포하는 단어를 사용하기: 위의 인간, 여성 17살이라는것을 모두 포함하는 'girl'이라는 단어로 바꾸자. 캐릭터가 고등학생이라는것이 이후 설명에 있기때문에 나이까지 빼버려도 됨. 17살인건 딱히 중요하지 않고, 고등학생인게 중요하니까
슬랭 사용하기: 나이를 쓴다면 17 years old 보다는 17 y/o로 바꾸자
쓸모없는 대문자 사용하지 않기: 대문자 은근 토큰 많이 먹음 다 소문자로 바꾸셂
28 → 16토큰 | → | 9토큰 |
Basic Info: Indra Vashti / 17 years old / Human / Female | → | basic info: Indra Vashti, girl |
여기서 진짜 진짜 더 압축한다면 뒤의 설명에 있는 고등학생이란 단어가 girl을 함축 할 수 있어서 9토큰짜리를 '이름: 인드라 바쉬티' 만 적어두고 뒤에가서 '직업:여고생'으로 더 줄여버릴 수 있음 그리고 '직업: 여고생'이건 또 뭉쳐지면서 이런식으로 더 압축될거임.
2. 봇의 과거 이야기 날려버리기
요약: 과거 이야기는 거의 쓸모가 없으니 요약해서 몇 줄만 남겨두고 추가 디스크립션이나 로어북으로 옮기셂
생각을 해보자. 너는 지금부터 LLM임. 페르소나와 봇 디스크립션, 로어북 프롬프트 등의 정보를 받음
페르소나: 저는 종원입니다. 어쩌구 저쩌구.. 이전 대화기록 : 종원은 학교 대표로 토론 대회에 참가했다. 봇이 마음에 든 종원은 토론이 끝난 후 번호를 따고 데이트를 신청하는데 성공했다. 지금은 데이트 중이고 카페에 있다. | 봇: 인드라는 인도계 이민자 가정에서 태어났지만, 부모님은 인도의 전통과 가치관을 중시했습니다. 성장하면서 주변의 불의와 편협한 사고, 환경 파괴 등을 목격하며 부모님의 신념에 의문을 품게 됩니다. |
여기서 과거 이야기가 어떤 쓸모가 있겠음? 이미 성격과 행동과 말투 등 묘사해야할 특징은 제시됨. 니가 과거이야기를 하면, 유저는 "찐빠나서 프롬뱉네.."라고 말하며 리롤할거임..
유저에게 맞춰서 대답할때 캐릭터의 과거 이야기가 필요했던 순간이 있을지 생각해봐라, 거의없음 ㅇㅇ. 오히려 유저가 봇 과거 읽고 맞춰줘야 하는게 더 많을거임.
소설이나 만화를 읽어도 과거 이야기가 있는 캐릭터들의 대사나 행동에서 과거 이야기는 거의 사용되지 않음. 캐릭터의 주요 특징을 가지고 행동을 해 나갈 뿐임.
굳이 쓸모없으니 요약한 뒤에 추가 디스크립션이나 로어북으로 옮기면 됨.
봇 설명(요약됨): 인도계 이민자 가정 출신의 인드라는 어릴 때부터 진보적 사상에 노출되었다. 성장하며 주변 불합리를 인식하고 부모의 가치관에 회의를 품게 되었고, 이에 사회운동과 인권 활동에 매진하는 이상주의자가 되었다. | 로어북/추가 디스크립션: 이것은 인드라의 전체 과거 이야기입니다. (인드라는 새로운 기회를 찾아 미국으로 온 인도계 이민자 부모 사이에서 태어나...) |
3. 심각한 비유적 표현 제거하기
비유적 표현은 묘사할때 아름다움을 위한거임. 그걸 봇 설명에다 써버리면 토큰은 늘어나고 언어모델은 혼란스러워 할 수 있음.특히 모델사이즈 작은 멍청한 애들이 심함.
openai 공홈 토크나이저에서 한글로 토큰측정함
101토큰 | 개 멍청한 LLM의 생각 | 70토큰 |
| 아 이새기는 피부가 버드나무 껍질로 이루어져있나? ㅅㅂ 섬세하고 영묘한 이목구비는 뭐야 어떻게 묘사해야하지? 어차피 아름답게 묘사해줄건데 요정 같은 아름다움은 도대체 뭐고 어떻게 설명해야함? | 외모: 키큼, 황금빛 갈색 피부, 아몬드모양 꿀빛 눈, 이목구비가 뚜렷함, 차콜 블랙 헤어 |
과도한 비유는 캐릭터 설명에 사용될 필요가 없음. 오히려 창의력을 떨어뜨리고 제한함.
비유를 사용하는건 출력때 언어 모델이 쓰는거지 니가 쓸게 아님 ㅇㅋ?
4. 최종검토
만약 저렇게 다 했다 싶으면 처음부터 다시 읽어보면서 로어북, 추가 디스크립션으로 뺄 거 없나 확인하셂. 있으면 바로 빼버려, 토큰 아껴야지?
5. 개 변태같이 토큰 더 줄이는 방법
외모: 키큼, 황금빛 갈색 피부, 아몬드모양 꿀빛 눈, 이목구비가 뚜렷함, 차콜 블랙 헤어 |
마지막 단어 끝에 스페이스바 들어가 있는지 확인하셂
와이푸가 돼지라면 시도해보세요.
감사합니다.