image.png

value_counts()를 했을 때 너무 많은 고유값을 가진 컬럼들 삭제

→ 인코딩 했을 때 과한 고차원을 방지하고 모델의 일반화 성능을 올리기 위해

image.png

위처럼 고유값이 너무 많은 컬럼들 제거 후, 앞서 얘기한 전처리 진행

→ 결과값으로는 Accuracy 0.9123, recall 0.6774 로 재현율이 현저히 떨어지는 결과

→ 정확한 분류는 하지만 실제 우울증 위험군인 사람이 위험군이 아니다 라고 오판하는 경우가 꽤 많이 생길 수 있음

→ 고유값이 많은데 상세하게 보면 이상치로 판별할만한 값들이 존재함. 따라서 이 방법은 잘못됨.

RandomForest

주요 특징: 배깅 기반 앙상블 방법, 병렬 처리로 학습시간 감소

선택 이유: 학습시간이 짧고, 적은 하이퍼 파라미터 튜닝으로도 준수한 성능을 내기 때문

하이퍼 파라미터 튜닝 전 Accuracy, Recall:

model = RandomForestClassifier()

Accuracy: 0.9356

recall: 0.7847