📊 Probability
Probability - [ 조건부 확률 ]
date
Jul 11, 2023
slug
probability-01
author
status
Public
tags
Probability
Python
summary
주어진 사건이 일어났을 때 다른 한 사건이 일어날 확률
type
Post
thumbnail
category
📊 Probability
updatedAt
Jul 28, 2023 07:33 AM
Kaggle [ Titanic - Machine Learning from Disaster ] 로 배워보는 조건부 확률
타이타닉 생존자 예측을 통해 조건부 확률에 대해 알아보자.
조건부 확률이란?
특정 사건(X)이 일어났을 때 연달아 다른 사건(Y)이 일어날 확률
타이타닉 데이터
사회적 약자는 항상 보호 받아야 한다. 타이타닉 호가 침몰할 당시에도 마찬가지였을 것이다.
남성보다 여성을 먼저 보호하고 탈출시켰을 거라고 생각해 볼 수 있다.
실제로도 그랬을지 역으로 추론해 보자.
# train 성별 인원 수 sex = train_dataset["Sex"].value_counts() print(sex)
male 577
female 314
- 전체 탑승자 중 여성 비율 == :
- 전체 탑승자 중 남성 비율 == :
# train 생존자 수 survived = train_dataset["Survived"].value_counts() print(survived)
0 549
1 342
- 전체 탑승자 중 사망 비율 == :
- 전체 탑승자 중 생존 비율 == :
# train 성별 생존자 수 survived_sex = train_dataset[train_dataset["Survived"] == 1]["Sex"].value_counts() print(survived_sex)
female 233
male 109
- 전체 생존자 중 여성 비율 == :
- 전체 생존자 중 남성 비율 == :
이제 train 데이터를 기반으로 얻은 확률을 가지고 test 데이터를 예측해 보자.
- test 데이터가 들어올 때 여성일 경우, 그 여성이 생존할 확률 ==
- test 데이터가 들어올 때 남성일 경우, 그 남성이 생존할 확률 ==
⇒ 결론
test 데이터에서 여성일 경우, 생존으로 예측하면 정확도는 74.2% 를 기대할 수 있고
test 데이터에서 남성일 경우, 사망으로 예측하면 정확도는 81.2% 를 기대할 수 있으므로
남성과 여성의 비율이 동일하다면 모델의 정확도는 77% 일 것이다.
과연 결과가 어떨지 여성→1 , 남성→0 으로 제출해 보자.
실제로 타이타닉이 침몰하는 와중에도 약자를 보호했다고 볼 수 있다 !
사회적 약자의 또 다른 기준인 Age 를 가지고도 해보기
(출처: 새싹교육 나동빈 멘토님 강의내용)