한줄평 : 모델과의 지나친 사랑은 집착이다
지난 섹션과는 다르게 이번 프로젝트는
개인이 직접 데이터를 선택하고 가설을 설정한 뒤, 머신러닝 모델까지 만드는 과정이였다.
따라서 자연스럽게 나의 평소 관심사를 기반으로 데이터를 선정한 뒤, 머신러닝 모델을 만들게 되었다.
너무 완벽한 모델을 만들고 싶었기 때문에
여러가지 데이터를 혼합하고 싶었고,
결과적으로 총 4일 기간중 데이터 수집과 전처리에 3일을 소요하였다.
마지막 하루동안 머신러닝 모델링을 진행하고, 발표자료를 만들고 발표녹화까지 하다 보니
결과적으로 용두사미의 프로젝트가 된 것 같아 매우 아쉽다.
제출하기 너무 부끄러운 모델과 자료였지만,
감사하게도 동기분들에게 피드백을 받아 회고해보고자 한다.
첫번째는 EDA에서 시각화 하셨던 몇개의 그래프 중, 비데이터 직군이 이해할만한 그래프를 첨부하여 설명해주셨으면 좋지 않았을까 하는 아쉬움이 있었습니다.
두번째는 낮은 예측률에 대한 보완점을 조금더 디테일하게 설명해주셨으면 하는 부분입니다.
어떤 데이터를 어떻게 보완하면 충분히 가능할 것 같다 라는 것들이요..ㅎㅎ
시간분배실패로 데이터전처리와 수집에만 3일을 소요하다 보니,
실질적으로 수집한 데이터 자체를 분석하는 시간이 매우 부족하였다.
또한 반나절만에 머신러닝 모델을 돌리다 보니, 하이퍼 파라미터 수정등을 통해 예측률을 높이는 작업이 부족했다.
결과 값에 대한 SHAP나 PDP를 활용하여 부가적인 설명이 있었다면 듣는 사람들이 보다 쉽게 이해할 수 있을 것이라 생각하였습니다.
그리고 모델링과 그 모델이 유용하게 쓰일 수 있을지? 단순하게 정확도가 이렇게 나왔는데, 어떠한 점이 보완이 된다면 신규 서비스로 런칭할 수 있다라는 점이 노출이 되었으면 설득력이 있을 것 같습니다!
SHAP 나 PDP를 통해 각각의 특성값들이 모델에 어떤 영향을 미치는 지를 준비하였다면,
더 완성도 높은 발표가 되었을 것이라는 피드백
해당 모델에 대한 평가지표와 기준모델에 대해 설명해주셨다면 성능판단에 더 도움이 되었을 것 같습니다.
결과적으로는 승부예측 모델이기 때문에, 기준모델 (평균승률)에 대한 안내가 부족했다.
1. 시계열 데이터를 사용하신 것 같은데요,
시기별로 팀별로 전성기, 부진기에 대한 정보를 반영하려는 시도가 있었으면 더 정확할 수 있지 않았나 싶습니다.
2. basemodel이 있었으면 모델 퍼포먼스 명확한 비교가 가능했을 것 같습니다.
프로젝트를 진행하면서 시계열 데이터에 대한 고민을 많이 했다.
스포츠이다보니 팀별로 승률의 흐름이 분명 있을 것이라고 판단했다가도
그러한 나의 개인적인 생각이 되려 모델의 성능을 저하시킬수도 있다는 생각이 있었다.
베스트는 시계열로 모델링 , 시계열 무시하고 모델링을 한 뒤 그 예측결과값을 비교해보는 방법이 최선
팀별로 분석을 하기 보다는 팀에 소속된 선수들을 기반으로 분석을 하면 더 좋은 승률 예측 값을 얻을 수 있을 것 같음.
예를 들어 A 팀에서 출장한 각 선수들의 승리 기여도의 합과 와 B 팀에서 출장한 각 선수들의 승리 기여도의 합을 비교하는 방식을 사용하면 더 높은 승리 기여도가 있는 팀이 승리 할 확률이 높을 것이라고 예측이 가능 할 것 같음.
==========
이전 데이터로 경기 결과를 예측하는 것도 좋지만 매 시즌마다 선수들이 영입되거나 팔리므로 선수 기량/실력도 경기 결과에 영향을 줄 것으로 생각합니다. 키플레이어가 부상을 당했는지, 현재 그 팀의 순위는 어떠한지 등등의 feature도 포함시켜보면 어떨까 생각합니다.
처음에는 NBA 팀 모든 데이터를 넣고 진행하다가, 너무 방대한 내용을 깊이없이 모델링하는 것 같아
특정 한팀만 선택하여 승부를 예측하였다.
피드백처럼 경기를 오래 뛴 (예를 들면 르브론 제임스) 선수를 기준으로 데이터를 구축, 모델링을 진행해서 예측해보는 것도 좋은 방법이겠다.
'AI월드 > ⚙️AI BOOTCAMP_Section 2' 카테고리의 다른 글
Section 2 종합 회고 (0) | 2021.03.02 |
---|---|
프로젝트)NBA 머신러닝 예측 모델_Day36~39 (0) | 2021.02.22 |
부분의존도,Partial Dependence Plot (PDP)_Day34 (0) | 2021.02.21 |
Gradient Boost,for Regression_Day33(3) (0) | 2021.02.21 |
AdaBoost,아다부스트,decision tree,random tree_Day33(2) (0) | 2021.02.16 |
댓글