데이터셋은 Mental Health care 데이터 셋으로 우울감을 갖고 있는 사람들과 아닌 사람들의 다양한 내용들이 담긴 데이터셋

→ 우울한지 안한지 분류문제로 예측하는 모델을 만들 수 있겠다 생각

→ 분류 문제 이므로 평가항목은 Accuracy로 선정후 Accuracy가 높은 모델을 만들고 우울 위험군 판단

전처리 여러가지 경우의 수 시행해봄

  1. 대부분의 문제가 있는 컬럼들 삭제후 모델링
  2. 학생/ 직장인 나눠서 따로 학습 시킨 모델
  3. 결측치 임퓨팅/ 여러 이상치 처리한 후 모델링

이중 3번째 경우의 성능 예측이 가장 높았고, 여러 시도들 중에서 좋았다고 생각한 전처리 반영

이 과정에서 어떤 피쳐들이 우울감에 영향을 줄 수 있을지 예상해볼 수 있음 (가정)→ 시각화 자료 활용

그후에 모델은 catboost, xgboost, randomforest를 선정해서 각각의 하이퍼 파라미터 튜닝을 한번에 하며 모델링을 한 후 점수 비교

→ 이중 가장 높은 점수를 보인 **** 모델을 선택 했고, 하이퍼 파라미터는 다음과 같고 최종 우리가 측정한 Accuracy, recall는 다음과 같음

→ 또, 결과적으로 우리가 예상한 피쳐들이 정말 우울감에 많은 영향을 미쳤는지 확인해 가정을 검정해 볼 수 있음