의사결정트리로 지니계수 계산하는거 아시는분 조언좀여

컴퓨터공학 채널

알림 알림 중 알림 취소

구독자 3404명 알림수신 19명 @SeworL

컴퓨터를 좋아하는 사람들의 모임

질문/조언 의사결정트리로 지니계수 계산하는거 아시는분 조언좀여

메카

추천 1 비추천 0 댓글 3 조회수 135 작성일 2022-05-19 07:46:50

⚠️ 이 게시물은 작성자가 삭제할 수 없도록 설정되어 있습니다.

https://arca.live/b/programmers/50668039

colab으로 기계학습 연습중인데 이번엔 지니계수 계산해서 의사결정트리로 나누는거를 하고있습니다.

이런거에서 항상 쓰이는 load_iris 파일로 연습한번 해보고 다른 데이터로 연습해보려고 하는데

코드 자체에서 오류는 없이 결과값은 나오는데 아무리 해봐도 값이 제가 손으로 계산한 값이랑 다르게 나옵니다.

코드 자체가 오류있는거면 에러뜨는거 찾아서 고치면 되는데 돌아가긴 하는데 값이 다르니까 진짜 돌아버릴것같네요.

코드 다 올려서 '해줘'하는거 진짜 안좋다 생각하는데 이번에는 뭐가 문제인지 자체를 모르겠어서 여기에 질문올립니다..

import pandas as pd import numpy as np

computer_data=pd.DataFrame([['youth','high','no','fair','no'],['youth','high','no','excellent','no']

,['middle_aged','high','no','fair','yes'],['senior','medium','no','fair','yes']                            

,['senior','low','yes','fair','yes'],['senior','low','yes','excellent','no']

,['middle_aged','low','yes','excellent','yes'],['youth','medium','no','fair','no']

,['youth','low','yes','fair','yes'],['senior','medium','yes','fair','yes']

,['youth','medium','yes','excellent','yes'],['middle_aged','medium','no','excellent','yes']

,['middle_aged','high','yes','fair','yes'],['senior','medium','no','excellent','no']]

,columns=['age','income','student','credit','buys_computer'])computer_data

1. 대충 이런 데이터 셋을

computer_data.age = computer_data.age.replace('youth',0)

computer_data.age = computer_data.age.replace('middle_aged', 1)

computer_data.age = computer_data.age.replace('senior',2)
computer_data.income = computer_data.income.replace('low',3)

computer_data.income = computer_data.income.replace('medium',4)

computer_data.income = computer_data.income.replace('high',5)
computer_data.student = computer_data.student.replace('no',6)

computer_data.student = computer_data.student.replace('yes',7)
computer_data.credit = computer_data.credit.replace('fair',8)

computer_data.credit = computer_data.credit.replace('excellent',9)
computer_data.buys_computer = computer_data.buys_computer.replace('no',10)

computer_data.buys_computer = computer_data.buys_computer.replace('yes',11)
computer_data

2. 이렇게 int값으로 변경해버리고

X = np.array(pd.DataFrame(computer_data, columns=['age','income', 'student', 'credit']))

y = np.array(pd.DataFrame(computer_data, columns=['buys_computer']))

3. X=데이터와 y=타겟으로 나누고

from sklearn.tree import DecisionTreeClassifier

dec_tree=DecisionTreeClassifier(max_depth=3)

dec_tree.fit(X,y)

4. 의사결정트리(깊이3)짜리에 X,y를 집어넣고

from sklearn.tree import export_graphviz

export_graphviz(

    dec_tree,

    out_file=("./dec_tree_for_computer.dot"),

    feature_names=['age','income', 'student', 'credit'])
!ls

5. 이렇게 파일 만들고

!dot -Tjpg dec_tree_for_computer.dot -o dec_tree_for_computer.jpg
import matplotlib.pyplot as plt

dec_tree_img=plt.imread('./dec_tree_for_computer.jpg')

plt.figure(num=None,figsize=(12,8),dpi=80,facecolor='w',edgecolor='k')

plt.imshow(dec_tree_img)

6. 이렇게 결과값이 나왔는데

여기서 보면 student<=6.5 즉, 학생 여부에 따라서 먼저 나눴는데

손으로 계산해보면

지니계수(student)일때는 0.367이고

지니계수(age=middle)일때가 0.357로 최소인데

이러면 age=middle 여부에 따라서 먼저 의사결정트리가 나뉘어야 하는거 아닌가요?

왜 학생여부에서 먼저 나뉘는걸까요

제가 처음에 데이터셋을 입력을 잘못했나 했는데 몇번확인했는데도 데이터자체는 맞는데이터라서 이게 뭐가 잘못된건지를 모르겠습니다.

도움 부탁드립니다 ㅠㅠ

//혹시몰라 원본 데이터도 올립니다

댓글 글쓰기

ㅇㅇ (49.175)

2022-05-19 13:49:16 삭제 수정 답글

*수정됨

1. 카테고리형 데이터를 수치형 데이터로 바꾼 게 원인임
2. age = middle 조건으로 나눌 때 지니계수가 최소이지만 sklearn은 age <= 0.5, age <= 1.5만 탐색할 것임
3. 즉, 0.5 <= age <= 1.5라는 조건은 탐색하지 않음(아마도 조합 폭발 때문에?)
4. sklearn의 한계로 보이는데 굳이 하겠다면 one-hot encoding을 하면 될 듯
5. 그렇다고 모든 카테고리형을 one-hot encoding을 하면 범위로 자르는 경우를 무시하게 됨
6. 따라서, 자료의 특성을 잘 파악해서 변형해야됨

펼쳐보기▼

메카

2022-05-19 15:19:58 답글

*수정됨

와...정말 감사합니다 덕분에 해결했습니다.
결정트리 예시로 나온 load_iris는 그냥 수치형데이터길래 똑같이 수치형으로 만들면 될 거라 생각했는데 
애초에 길이같은 수치형데이터를 그대로 적은것과 A B C 선택을 수치형으로 변환하는건 다른 개념이군요
카테고리형을 원핫인코더로 다 쪼개버려서 작동시키긴 했는데 애초에 이런데이터는 적용하기 힘든건가보네요

펼쳐보기▼

메카

2022-05-19 15:20:39 답글