본문 바로가기
728x90

Random Forest4

지니(Gini) vs 엔트로피(Entropy) 그리고 정보 이득량(Information Gain) 안녕하세요, 끙정입니다. 오늘은 Tree Based Method에서 파티션(노드)을 분할할 때 기준으로 쓰이는 두 가지 측정방법, Gini(지니)와 Entropy(엔트로피)를 알아보겠습니다. 그리고 추가로 Information Gain(정보 이득량)을 통해서 Tree가 어떻게 Nodes를 펼쳐 나가는지 알아보겠습니다. 딥러닝에서는 크로스 엔트로피를 손실 함수로 사용하기 때문에 엔트로피는 익숙하신 분도 계실 겁니다. 지니도 엔트로피와 매우 유사하지만 조금은 헷갈립니다. 가정. 우리는 각기 다른 4개의 구슬이 담긴 3개의 주머니가 있습니다. 순도. 우리는 이제 기준으로 순도(Purity)를 이야기할 겁니다. 순도는 얼마나 순수한지에 대한 기준입니다. 여기서 순수의 개념은 homogeneity, 균질성입니다... 2021. 4. 30.
트리 기반 메서드(Tree Based Method) 끙정입니다. 오늘은 더 심연으로 돌아가서 Tree-Based Method에 대해서 탐구해보고자 합니다. 많은 사람들이 Random Forest를 쓰고, LGBM, XGB 등의 Boosting 알고리즘을 사용합니다. 도대체 어떤 원리로 Tree Based Model들이 작동하는지 기초를 다시 복습해보도록 합시다. 오늘 살펴볼 것은 세 가지입니다. ⓐ 어떻게 Tree가 뻗어 나가는가? ⓑ 어떤 기준으로 가지가 나눠지는가? ⓒ 왜 그 가지가 선택되었는가? 자, 그럼 오늘도 탐험을 시작해보도록 하겠습니다. ⓐ 나무는 어떻게 뻗어 나가는가? Tree Based Method의 핵심은 데이터를 어떠한 규칙에 의해 연속적으로 나눠가는 것이라고 이해하시면 됩니다. 예를 들어 야구 선수의 메이저리그 활동 기간(year)과.. 2021. 4. 27.
엑스트라 트리(Extra Trees) vs 랜덤 포레스트(Random Forest) 끙정입니다. 일전에 데이콘에서 주최하는 '시스템 품질 변화로 인한 사용자 불편 예지' 경진대회를 참가했을 때, 팀원이 pycaret을 사용해 모델의 성능들을 비교한 적이 있습니다. 생전 처음 보는 모델들도 종종 있었는데, 그중에서도 도대체 이건 뭘까 하는 모델이 있었죠. 바로 Extra Trees입니다. Extra Trees를 제대로 이해하고 싶어서 인터넷도 뒤지고, 책도 뒤졌지만 제대로 설명해주는 곳이 많지 않습니다. 특히나 한글로 된 블로그는 그 차이를 제대로 설명하고 있는 곳이 없습니다. 핸즈온 머신러닝에서도 많은 지면을 할애하지 않아 이해가 잘 가지 않았습니다. 다행히도 해외 유튜버와 해외 블로그를 뒤져서 조금은 이해를 했습니다. 엑스트라 트리는 랜덤 포레스트의 친구라고 보면 될 정도로 닮아 있습.. 2021. 4. 26.
배깅(Bagging) vs 부스팅(Boosting) 안녕하세요, 끙정입니다. 오늘은 배깅(bagging)과 부스팅(boosting)을 비교해보면서 두 알고리즘에 대해 심층적으로 알아보겠습니다. Conventional한 방식의 알고리즘에서도 가장 강력한 성능을 내는 배깅과 부스팅은 현업에서도 가장 많이 쓰이고, 경진대회에서도 정형데이터에 대해서는 아주 뛰어난 성능을 내고 있습니다. 두 알고리즘의 차이점을 비교하다보면 자연스럽게 두 알고리즘을 잘 이해할 수 있게 될 것입니다. 본 글에서 다룰 차이점은 총 3가지 입니다. 바로 샘플링 방식, 학습 방식 그리고 최종 결과 도출 방식입니다. 가정. 일단 기본적으로 배깅과 부스팅은 똑같이 앙상블 기법을 사용합니다. 하나의 Tree를 사용하는 의사결정나무(Decision Tree)와는 다르게 배깅과 부스팅은 여러개의 .. 2021. 4. 6.
728x90