데이터셋에 대해 설명해줘
탑승객의 생존 여부를 0과 1로 예측하고 싶은데 어떻게 접근하는 게 좋을까?
결측치와 데이터 타입 등을 확인해줘
어떻게 전처리를 하는 게 좋을까?
각 컬럼에 대해 기술통계를 분석해줘. 수치형 데이터와 범주형 데이터 그룹으로 나눠 컬럼명을 행으로 하는 표로 각각 만들어 줘.
각 컬럼에 대해 EDA를 수행해조. 각 컬럼들의 데이터 분포나 패턴 등이 잘 나타나도록 적절히 시각화 해줘. 그래프는 subplots으로 그리지 말고 하나씩 그려조.
나머지 컬럼들도 타깃컬럼과 상관관계를 시각화해조. 역시 subplots으로 그리지 말고 하나씩 그려조.
성별로 생존율을 계산해조
이제 Name, Cabin, Ticket 같은 범주형 데이터를 분석해보자. 이 컬럼들은 텍스트로 이뤄져 있는데 어떻게 분석하는 게 좋을까?
Cabin과 Pclass의 관계를 크로스탭으로 분석해 표로 보여조.
이 컬럼들을 입력값으로 생존여부를 예측하기 위한 모델링을 하려고 해. 어떤 모델을 사용하면 좋을까?