데이터 분석

[데이터 분석] 확률 변수(Random Variable)

LeeSeunghyuk 2021. 1. 29. 14:24
반응형

 

데이터를 분석할 때 필요하다고 느낀 부분들을 공부하려 합니다.

데이터의 확률, 분포, 예측을 할 때 필요한 확률과 통계에 대한 개념을

공부하고 이를 간단하게 정리하여 공유하려고 합니다.

 

## 확률 변수(Random Variable)

 

표본 공간 : 발생 가능한 모든 결과들의 집합

확률 변수 : 표본 공간의 각 원소에 하나의 확률을 대응시킬 때 그 실수를 확률변수라고 합니다.

확률 변수는 하나의 원소를 확률에 대응시키므로 함수라고 할 수 있습니다.

일반적으로 X로 나타냅니다.

 

표본 공간의 각 사건에 대한 <- 확률을 지정한 것확률 분포라고 합니다.

확률변수 X의 확률 분포는 누적분포함수P(X≤a)에 의해 결정됩니다.

 

※ 확률 변수의 2가지 종류

 

이산 확률변수  :  정수와 같이 명확한 값을 변수 값으로 함

연속 확률변수  : 변수값이 정수 처럼 명확하지 못함.

                               확률변수가 연속량으로 표기되어 가능한 변수값의 개수를 셀 수 없는 변수 

 

 

# 동전을 활용한 예시

 

표본 공간 : {(앞,앞) , (앞,뒤) , (뒤,앞) , (뒤뒤)}

확률 변수(앞면 수) : {0, 1, 2}

확률 : {0.25 , 0.5 , 0.25} - 이산 확률 변수

 

## 확률 질량 함수

 

위 동전의 예시 중, 앞면이 나올 확률을 사용하여 그래프를 그려보았습니다.

x축은 앞면이 나온 횟수 , y축은 이에 해당하는 확률 입니다.

위와는 달리 연속 확률 변수에서는 0,1,2 가 떨어진 것이 아닌 모든 점을 취할 수 있습니다.

사람의 키, 달리는 차의 속도, 등 연속적인 값을 사용합니다.

 

 

확률 변수 X(0,1,2)에 각각 대응하는 확률은 다음과 같습니다.

 

P(0) = 0.25

P(1) = 0.5

P(2) = 0.25

 

위 확률의 조합을 사용해, 앞면이 x번 나오는 경우는 3Cx 로 나타낼 수 있습니다.

전에 다루었던 이항 확률 함수가 바로 이산확률 변수의 확률 질량 함수 입니다.

 

2021/01/14 - [알고리즘] - [Python&SQL] 적어도 불량품 1개일 확률 ?

 

[Python&SQL] 적어도 불량품 1개일 확률 ?

한 상자에 6개의 물건이 들어있다. 그 중 2개가 불량품입니다. 3개를 추출했을 때 적어도 1개의 불량품이 발견될 확률은 ? 어렸을 때 수학 시간에 많이 다루어 보았던 문제입니다. 적어도 1개 확률

lsh-story.tistory.com

 

확률과 통계는 뒤로 갈수록 단어가 비슷하고 복잡해 기초부터 

차근차근 이해하며 가려고 노력하려고 합니다.

 

더 나은 설명 방법이나 의견이 있으시면 댓글로 남겨주세요.

읽어주셔서 감사합니다.

 

 

반응형