본문 바로가기
728x90

Tree Based Method3

트리 기반 메서드(Tree Based Method) 끙정입니다. 오늘은 더 심연으로 돌아가서 Tree-Based Method에 대해서 탐구해보고자 합니다. 많은 사람들이 Random Forest를 쓰고, LGBM, XGB 등의 Boosting 알고리즘을 사용합니다. 도대체 어떤 원리로 Tree Based Model들이 작동하는지 기초를 다시 복습해보도록 합시다. 오늘 살펴볼 것은 세 가지입니다. ⓐ 어떻게 Tree가 뻗어 나가는가? ⓑ 어떤 기준으로 가지가 나눠지는가? ⓒ 왜 그 가지가 선택되었는가? 자, 그럼 오늘도 탐험을 시작해보도록 하겠습니다. ⓐ 나무는 어떻게 뻗어 나가는가? Tree Based Method의 핵심은 데이터를 어떠한 규칙에 의해 연속적으로 나눠가는 것이라고 이해하시면 됩니다. 예를 들어 야구 선수의 메이저리그 활동 기간(year)과.. 2021. 4. 27.
엑스트라 트리(Extra Trees) vs 랜덤 포레스트(Random Forest) 끙정입니다. 일전에 데이콘에서 주최하는 '시스템 품질 변화로 인한 사용자 불편 예지' 경진대회를 참가했을 때, 팀원이 pycaret을 사용해 모델의 성능들을 비교한 적이 있습니다. 생전 처음 보는 모델들도 종종 있었는데, 그중에서도 도대체 이건 뭘까 하는 모델이 있었죠. 바로 Extra Trees입니다. Extra Trees를 제대로 이해하고 싶어서 인터넷도 뒤지고, 책도 뒤졌지만 제대로 설명해주는 곳이 많지 않습니다. 특히나 한글로 된 블로그는 그 차이를 제대로 설명하고 있는 곳이 없습니다. 핸즈온 머신러닝에서도 많은 지면을 할애하지 않아 이해가 잘 가지 않았습니다. 다행히도 해외 유튜버와 해외 블로그를 뒤져서 조금은 이해를 했습니다. 엑스트라 트리는 랜덤 포레스트의 친구라고 보면 될 정도로 닮아 있습.. 2021. 4. 26.
배깅(Bagging) vs 부스팅(Boosting) 안녕하세요, 끙정입니다. 오늘은 배깅(bagging)과 부스팅(boosting)을 비교해보면서 두 알고리즘에 대해 심층적으로 알아보겠습니다. Conventional한 방식의 알고리즘에서도 가장 강력한 성능을 내는 배깅과 부스팅은 현업에서도 가장 많이 쓰이고, 경진대회에서도 정형데이터에 대해서는 아주 뛰어난 성능을 내고 있습니다. 두 알고리즘의 차이점을 비교하다보면 자연스럽게 두 알고리즘을 잘 이해할 수 있게 될 것입니다. 본 글에서 다룰 차이점은 총 3가지 입니다. 바로 샘플링 방식, 학습 방식 그리고 최종 결과 도출 방식입니다. 가정. 일단 기본적으로 배깅과 부스팅은 똑같이 앙상블 기법을 사용합니다. 하나의 Tree를 사용하는 의사결정나무(Decision Tree)와는 다르게 배깅과 부스팅은 여러개의 .. 2021. 4. 6.
728x90