📊 Probability

Probability - [ 조건부 확률 ]

date
Jul 11, 2023
slug
probability-01
author
status
Public
tags
Probability
Python
summary
주어진 사건이 일어났을 때 다른 한 사건이 일어날 확률
type
Post
thumbnail
category
📊 Probability
updatedAt
Jul 28, 2023 07:33 AM

Kaggle [ Titanic - Machine Learning from Disaster ] 로 배워보는 조건부 확률

타이타닉 생존자 예측을 통해 조건부 확률에 대해 알아보자.
 

조건부 확률이란?

특정 사건(X)이 일어났을 때 연달아 다른 사건(Y)이 일어날 확률
 

타이타닉 데이터

사회적 약자는 항상 보호 받아야 한다. 타이타닉 호가 침몰할 당시에도 마찬가지였을 것이다.
남성보다 여성을 먼저 보호하고 탈출시켰을 거라고 생각해 볼 수 있다.
실제로도 그랬을지 역으로 추론해 보자.
 
# train 성별 인원 수 sex = train_dataset["Sex"].value_counts() print(sex)
male 577 female 314
 
  • 전체 탑승자 중 여성 비율 == :
  • 전체 탑승자 중 남성 비율 == :
 
# train 생존자 수 survived = train_dataset["Survived"].value_counts() print(survived)
0 549 1 342
 
  • 전체 탑승자 중 사망 비율 == :
  • 전체 탑승자 중 생존 비율 == :
 
# train 성별 생존자 수 survived_sex = train_dataset[train_dataset["Survived"] == 1]["Sex"].value_counts() print(survived_sex)
female 233 male 109
 
  • 전체 생존자 중 여성 비율 == :
  • 전체 생존자 중 남성 비율 == :
 
이제 train 데이터를 기반으로 얻은 확률을 가지고 test 데이터를 예측해 보자.
 
  • test 데이터가 들어올 때 여성일 경우, 그 여성이 생존할 확률 ==
    •  
 
  • test 데이터가 들어올 때 남성일 경우, 그 남성이 생존할 확률 ==
    •  
 
⇒ 결론
test 데이터에서 여성일 경우, 생존으로 예측하면 정확도는 74.2% 를 기대할 수 있고
test 데이터에서 남성일 경우, 사망으로 예측하면 정확도는 81.2% 를 기대할 수 있으므로
남성과 여성의 비율이 동일하다면 모델의 정확도는 77% 일 것이다.
 
과연 결과가 어떨지 여성→1 , 남성→0 으로 제출해 보자.
 
notion image
 
실제로 타이타닉이 침몰하는 와중에도 약자를 보호했다고 볼 수 있다 !
 
👶
사회적 약자의 또 다른 기준인 Age 를 가지고도 해보기
 
(출처: 새싹교육 나동빈 멘토님 강의내용)