본문 바로가기
카테고리 없음

의사결정 트리에서 엔트로피와 지니 계수 용어 이해하기

by paper-knowledge 2025. 4. 8.
반응형

의사결정 트리에서 엔트로피와 지니 계수 용어 이해하기

안녕하세요 여러분! 데이터 분석이나 머신러닝을 공부하시는 분들이라면 한 번쯤은 접해봤을 용어들이 있죠. 바로 엔트로피지니 계수인데요. 처음에는 이름부터 낯설고 어렵게 느껴지지만, 알고 보면 생각보다 개념이 단순하답니다. 오늘 포스팅에서는 이 두 용어를 중심으로, 의사결정 트리 모델에서 어떤 역할을 하는지, 어떤 차이가 있는지를 차근차근 쉽게 풀어드릴게요.

의사결정 트리란?

의사결정 트리는 데이터를 분류하거나 예측하기 위해 사용하는 트리 기반의 지도 학습 모델입니다. 나무 형태의 구조를 가지고 있으며, 각 분기점에서는 특정 기준에 따라 데이터를 나누게 됩니다. 이때 사용하는 기준이 바로 엔트로피지니 계수 같은 지표들입니다.

트리는 크게 루트 노드(Root Node), 내부 노드(Internal Node), 그리고 리프 노드(Leaf Node)로 구성되며, 루트에서 시작된 분기가 점점 구체적인 분류로 이어져 최종적으로 리프 노드에서 결과를 도출합니다.

즉, 의사결정 트리는 “어떤 기준으로 데이터를 나누는가?”가 핵심입니다. 이 기준을 정할 때 사용하는 것이 바로 엔트로피와 지니 계수죠.

💡 TIP: 의사결정 트리는 직관적인 해석이 가능해 비전문가도 쉽게 이해할 수 있다는 장점이 있어요.

엔트로피(Entropy)의 개념

엔트로피는 정보 이론에서 유래된 개념으로, 데이터의 불순도(혼잡도)를 측정하는 지표입니다. 쉽게 말해, 엔트로피가 높을수록 더 다양한 클래스가 혼재된 상태이며, 반대로 낮을수록 한쪽 클래스가 더 많이 차지한다는 의미입니다.

수식으로는 다음과 같이 표현됩니다:


Entropy(S) = - ∑ p(i) * log₂ p(i)

여기서 p(i)는 각 클래스의 비율입니다. 예를 들어, YES와 NO로 나뉜 이진 분류 문제에서 YES 50%, NO 50%라면 엔트로피는 가장 높은 상태입니다. 반대로 YES 100%, NO 0%라면 엔트로피는 0이 되어, 더 이상 분류할 필요가 없게 됩니다.

YES 비율 NO 비율 엔트로피
0.5 0.5 1.0 (최대)
1.0 0.0 0.0

결론적으로, 엔트로피는 데이터가 얼마나 섞여 있는지를 수치로 나타내며, 의사결정 트리에서는 이 엔트로피 값을 최소화하도록 분기를 나눕니다.

지니 계수(Gini Index)의 개념

지니 계수는 경제학에서 소득 불균형 정도를 측정할 때 쓰이던 지표지만, 머신러닝에서는 불순도를 측정하는 또 다른 방법으로 활용됩니다. 엔트로피와 마찬가지로 데이터가 얼마나 섞여 있는지를 알려주지만, 계산 방식이 조금 다릅니다.

지니 계수의 공식은 다음과 같습니다:


Gini(S) = 1 - ∑ p(i)²

p(i)는 각 클래스의 비율로, 이들을 제곱한 뒤 1에서 뺍니다. 예를 들어 YES와 NO가 각각 50%일 경우, Gini = 1 - (0.5² + 0.5²) = 0.5가 됩니다. YES 100%, NO 0%라면 Gini는 0으로, 완벽한 순수 상태입니다.

YES 비율 NO 비율 지니 계수
0.5 0.5 0.5
1.0 0.0 0.0

지니 계수는 계산이 간단하고 속도가 빠르기 때문에 CART(Classification and Regression Tree) 알고리즘에서 자주 사용됩니다.

엔트로피와 지니 계수의 차이점

엔트로피와 지니 계수는 모두 의사결정 트리에서 분할 기준으로 사용되는 불순도 측정 지표입니다. 하지만 이 둘은 계산 방식과 특징에서 차이를 보이는데요, 아래 표를 통해 한눈에 비교해볼 수 있어요.

항목 엔트로피 지니 계수
공식 -∑ p(i) * log₂ p(i) 1 - ∑ p(i)²
최대값 1.0 (이진 분류 기준) 0.5 (이진 분류 기준)
해석 정보 이론 기반 통계적 불순도 기반
계산 속도 상대적으로 느림 더 빠름
사용 예시 ID3, C4.5 CART

정확도에서는 큰 차이가 없지만, 속도나 구현 목적에 따라 선택이 달라질 수 있어요. 실무에서는 지니 계수를 더 선호하는 경우도 많습니다.

각 기준이 적용된 사례 비교

실제로 엔트로피와 지니 계수 기준으로 분할을 적용했을 때 어떤 차이가 나타나는지 간단한 예시로 살펴볼게요. 동일한 데이터를 기준으로 각각 엔트로피와 지니 계수를 적용한 트리 분기를 비교합니다.

기준 첫 분할 기준 결과 깊이 모델 복잡도
엔트로피 '나이 <= 30' 5단계 중간
지니 계수 '수입 > 50K' 4단계 낮음

분류 정확도에는 큰 차이가 없더라도, 선택된 분할 기준과 트리의 깊이에서 차이가 발생합니다. 이는 모델의 해석력과 성능에 직간접적으로 영향을 미칠 수 있어요.

💎 핵심 포인트:
실무에서는 속도와 단순성을 중시하면 지니 계수를, 정밀한 정보 이득을 원하면 엔트로피를 선택하는 경향이 있습니다.

정리 및 선택 팁

지금까지 의사결정 트리의 분할 기준으로 자주 등장하는 엔트로피와 지니 계수에 대해 자세히 살펴봤습니다. 이 두 가지는 모두 데이터의 불순도를 측정하는 훌륭한 도구지만, 상황에 따라 적절한 선택이 필요합니다.

다음 체크리스트를 통해 여러분의 상황에 맞는 지표를 선택해보세요!

계산 속도가 중요한가요?지니 계수를 고려하세요.
정보 이득을 보다 정밀하게 계산하고 싶으신가요?엔트로피가 적합합니다.
모델 해석력이 중요한 프로젝트인가요? → 두 지표 모두 해석 가능하나, 엔트로피가 약간 더 명확한 구조를 만들기도 해요.
분류 정확도 향상이 목표인가요? → 실험을 통해 두 방법을 비교해보는 것이 가장 좋습니다.

💡 TIP: scikit-learn 같은 라이브러리에서는 지니 계수가 기본으로 설정되어 있으니, 목적에 따라 설정을 바꾸는 것도 잊지 마세요!

여러분은 어떤 기준이 더 이해가 쉬우셨나요? 선택과 이유를 댓글로 공유해 주세요!

마무리 인삿말

오늘은 머신러닝 모델 중 하나인 의사결정 트리에서 많이 사용되는 두 가지 개념, 엔트로피지니 계수에 대해 자세히 알아보았습니다. 개념 자체는 처음 접하면 낯설 수 있지만, 하나씩 풀어보면 충분히 이해할 수 있는 주제예요.

앞으로 머신러닝 알고리즘을 구현하거나 데이터를 분석할 때, 어떤 기준으로 분기할지를 고민하게 될 텐데요, 오늘 배운 개념들이 실전에서 큰 도움이 되기를 바랍니다.

궁금하신 점이나 추가로 다뤘으면 하는 주제가 있다면 댓글로 남겨주세요! 여러분의 피드백이 제게 큰 힘이 됩니다. 감사합니다 :)

관련된 사이트 링크

태그 정리

머신러닝, 의사결정트리, 엔트로피, 지니계수, 정보이득, CART, ID3, 분류모델, 데이터분석, 인공지능

반응형