해당 모델은 개인프로젝트로 진행하고 있는 koVast의 일부입니다.

한국어 멀티턴 데이터셋이 (거의)없길래 대규모로 제작하고자 시작하게 되었습니다.

https://huggingface.co/maywell/KoMultiGen-General



아래는 모델카드입니다.


KoMultiGen-General


본 모델은 대규모 한국어 멀티턴 데이터셋 **koVast** 프로젝트의 일부로써 제작되었습니다.


**KoMultiGen-General**은 시나트라-믹스트랄 모델을 기반으로 제작되었습니다. 본 모델은 주어진 비정형 데이터를 기반으로 3~5턴의 한국어 멀티턴 데이터를 생성 할 수 있습니다.


## Methodology


GPT-4 Turbo를 이용하여 생성한 데이터셋을 기반으로 모델을 훈련을 진행하였습니다.


일반적으로, 한국어 모델과의 질의 응답의 경우에 '해체'를 사용하는 경향이 매우 짙게 나타남에 따라 Question을 '해체'로 구성하였습니다.


또한, 데이터를 생성하기 힘든 입력에 대해서는 생성하지 않는 판단을 유도함으로써 데이터 정제과정에서의 어려움을 최소화하고자 했습니다.


## Example


일반적으로 아래 프롬프트를 따릅니다.

```

As an AI Bot, you excel in crafting multi-turn QA samples with a focus on Korean content. You start with an initial question that paves the way for deeper, more detailed follow-up inquiries. These questions are carefully designed to be relevant and interconnected, often referring back to subjects or details from previous answers. They can include techniques like using pronouns to maintain continuity, starting questions with phrases like 'if so,' or requesting examples for clarity. Your answers are expected to be rooted in thorough logical analysis. The dialogue can unfold over 3 to 5 exchanges. If the data provided falls short, you may limit your response to a single turn, or if even that proves challenging, you're to acknowledge the limitation by stating, '해당하는 문장을 생성할 수 없습니다.'


### Instruction:

### Start of provided data

{prompt}

### End of provided data


주어진 데이터로 3~5 turn의 QA를 생성해라.

인용표현을 사용하지 말아야한다.

Question의 말투는 '~는 ~야?' 같은 반말 어휘를 사용하며, Answer는 '~입니다.' 어휘를 사용한다.


### Response:


```


아래는 본 모델을 사용한 입출력 예시입니다.


#1


입력

안녕하세요, 여러분. 오늘의 강의에서는 노블레스 오블리주와 감사의 힘에 대해 이야기해 보겠습니다.

노블레스 오블리주는 높은 지위나 재산을 가진 사람들이 사회에 봉사해야 하는 의무를 의미하는 라틴어로, '귀족의 의무'라는 뜻입니다. 귀족계층이 사회에 봉사하는 것이 기본적 의무라는 생각이었죠. 이 용어는 종종 부유하고 영향력 있는 사람들에게 봉사를 요구하는 데에 사용되지만, 모든 사람에게 적용되는 개념입니다. 

우리는 모두 사회의 일원으로, 다른 사람들과 연결되어 있습니다. 그리고 우리가 받은 것을 사회에 돌려주는 것은 우리의 의무입니다. 이를테면, 우리가 받은 교육의 이익은 사회 전체에 돌아갑니다. 우리가 받은 교육을 바탕으로 더 나은 일자리를 얻고 더 많은 돈을 벌 수 있고, 그 돈으로 세금을 내서 사회를 돕습니다. 또한, 우리가 받은 교육을 통해 더 많은 것을 배우고 더 나은 사람이 되고, 그것은 다시 사회에 돌아가게 됩니다.

감사는 우리가 받은 것에 대한 감사를 표현하는 것입니다. 그것은 단순히 "고맙습니다"라고 말하는 것을 의미하는 것이 아니라, 그 선물을 진정으로 소중히 여기고 그것을 주신 사람에게 감사하는 마음을 가지는 것을 의미합니다.

감사를 표현하는 것은 좋은 인간 관계를 유지하기 위해 중요합니다. 우리가 선물을 받을 때 감사를 표현하면, 선물을 준 사람은 기뻐하고 우리에 대한 호감을 느끼게 됩니다. 또한, 감사를 표현하면 우리는 선물의 의미를 더 잘 이해할 수 있고, 그 선물을 더 소중히 여기게 됩니다.

감사는 우리의 뇌에도 좋은 영향을 미칩니다. 감사를 표현하면 뇌에서 기분을 좋게 하는 호르몬인 도파민과 세로토닌이 분비됩니다. 이러한 호르몬은 스트레스를 해소하고 기분을 개선하며 행복감을 주는 효과가 있습니다.

또한, 감사는 우리의 삶을 변화시킬 수 있습니다. 우리가 모든 것에 대해 감사하는 법을 배우면, 우리는 세상을 더 긍정적으로 바라볼 수 있고, 더 행복한 삶을 살 수 있습니다.

감사를 표현하는 것은 어려운 일이 아닙니다. 우리는 매일 매일 많은 것에 대해 감사할 수 있습니다. 예를 들어, 우리가 아침에 눈을 뜨고 살아 있을 수 있는 것에 감사할 수 있고, 우리가 사랑하는 사람들이 있고 안전한 집에서 살 수 있는 것에 감사할 수 있습니다. 우리가 먹을 음식과 입을 옷이 있고, 교육을 받을 수 있는 것에 감사할 수 있습니다.

우리는 작은 것에도 감사할 수 있습니다. 예를 들어, 우리가 맛있는 음식을 먹을 수 있는 것에 감사할 수 있고, 아름다운 꽃을 볼 수 있는 것에 감사할 수 있습니다. 우리가 친절한 사람을 만나거나 좋은 소식을 들을 때 감사할 수 있습니다.

감사를 표현하는 것은 우리의 삶을 더 좋게 만들 수 있습니다. 우리가 모든 것에 대해 감사하는 법을 배우면, 우리는 더 행복하고 만족스러운 삶을 살 수 있습니다.


출력

[[Question]]

노블레스 오블리주가 무슨 뜻이야?


[[Answer]]

노블레스 오블리주는 높은 지위나 재산을 가진 사람들이 사회에 봉사해야 하는 의무를 의미하는 라틴어로, '귀족의 의무'라는 뜻입니다. 이 용어는 부유하고 영향력 있는 사람들에게 사회적 책임을 강조하는 데 사용되지만, 사실상 모든 사람에게 적용되는 개념이라고 할 수 있습니다.


[[Question]]

그럼 모든 사람이 노블레스 오블리주를 실천할 수 있는 예시는 뭐가 있어?


[[Answer]]

예를 들어, 우리가 받은 교육을 사회에 환원하는 것이 하나의 방법이 될 수 있습니다. 받은 교육을 바탕으로 좋은 일자리를 얻고, 그를 통해 벌어들인 돈으로 세금을 내어 사회 발전에 기여할 수 있습니다. 또한, 우리가 배운 지식을 다른 사람들과 공유하여 사회적 가치를 높이는 것도 노블레스 오블리주의 실천으로 볼 수 있습니다.


[[Question]]

그렇다면 감사의 힘은 구체적으로 어떤 영향을 미쳐?


[[Answer]]

감사를 표현하는 것은 우리의 뇌에 긍정적인 영향을 미칩니다. 감사의 표현은 뇌에서 기분을 좋게 하는 호르몬인 도파민과 세로토닌을 분비하게 만들어 스트레스를 해소하고, 기분을 개선하며, 행복감을 증가시킵니다. 또한, 감사를 표현함으로써 우리는 사물의 가치를 더 깊이 이해하고 소중히 여기게 되며, 이는 우리의 삶을 더 긍정적으로 변화시킬 수 있습니다.


[[Question]]

그러면 매일 감사할 수 있는 작은 것들에는 어떤 것들이 있을까?


[[Answer]]

우리는 매일 아침 눈을 뜨고 살아 있음에 감사할 수 있고, 사랑하는 사람들이 있고, 안전한 집에서 생활할 수 있음에 감사할 수 있습니다. 먹을 음식과 입을 옷이 있으며, 교육을 받을 수 있는 기회가 있다는 것도 감사할 수 있는 부분입니다. 또한, 맛있는 음식을 먹을 수 있고, 아름다운 꽃을 볼 수 있으며, 친절한 사람을 만나거나 좋은 소식을 듣는 것 등 작은 것들에도 감사할 수 있습니다.



## License


본 모델은 apache-2.0 라이센스를 따릅니다. 모델을 사용하여 생성된 데이터셋을 배포할 경우 모델 사용을 명시해 주시기를 권고드립니다.


## Thanks to


- 모델 제작에 영감을 주신, [NousResearch/Genstruct-7B](https://huggingface.co/NousResearch/Genstruct-7B)
- A100 클러스터를 제공해주신, (--규칙 검열--)


현재는 korean_textbooks 데이터셋을 기반으로 제작해보고자 좀 큰 규모로 인퍼런스를 진행하고 있습니다.
만약 위 모델을 사용해서 인퍼런스를 돌리신다면 다른 데이터셋 기반으로 돌리시는게 안겹치고 서로에게 이득일 것 같습니다.