데이터를 분석할 때 필요하다고 느낀 부분들을 공부하려 합니다.
데이터의 확률, 분포, 예측을 할 때 필요한 확률과 통계에 대한 개념을
공부하고 이를 간단하게 정리하여 공유하려고 합니다.
## 확률 변수(Random Variable)
표본 공간 : 발생 가능한 모든 결과들의 집합
확률 변수 : 표본 공간의 각 원소에 하나의 확률을 대응시킬 때 그 실수를 확률변수라고 합니다.
확률 변수는 하나의 원소를 확률에 대응시키므로 함수라고 할 수 있습니다.
일반적으로 X로 나타냅니다.
표본 공간의 각 사건에 대한 <- 확률을 지정한 것을 확률 분포라고 합니다.
확률변수 X의 확률 분포는 누적분포함수P(X≤a)에 의해 결정됩니다.
※ 확률 변수의 2가지 종류
이산 확률변수 : 정수와 같이 명확한 값을 변수 값으로 함
연속 확률변수 : 변수값이 정수 처럼 명확하지 못함.
확률변수가 연속량으로 표기되어 가능한 변수값의 개수를 셀 수 없는 변수
# 동전을 활용한 예시
표본 공간 : {(앞,앞) , (앞,뒤) , (뒤,앞) , (뒤뒤)}
확률 변수(앞면 수) : {0, 1, 2}
확률 : {0.25 , 0.5 , 0.25} - 이산 확률 변수
## 확률 질량 함수
위 동전의 예시 중, 앞면이 나올 확률을 사용하여 그래프를 그려보았습니다.
x축은 앞면이 나온 횟수 , y축은 이에 해당하는 확률 입니다.
위와는 달리 연속 확률 변수에서는 0,1,2 가 떨어진 것이 아닌 모든 점을 취할 수 있습니다.
사람의 키, 달리는 차의 속도, 등 연속적인 값을 사용합니다.
확률 변수 X(0,1,2)에 각각 대응하는 확률은 다음과 같습니다.
P(0) = 0.25
P(1) = 0.5
P(2) = 0.25
위 확률의 조합을 사용해, 앞면이 x번 나오는 경우는 3Cx 로 나타낼 수 있습니다.
전에 다루었던 이항 확률 함수가 바로 이산확률 변수의 확률 질량 함수 입니다.
2021/01/14 - [알고리즘] - [Python&SQL] 적어도 불량품 1개일 확률 ?
확률과 통계는 뒤로 갈수록 단어가 비슷하고 복잡해 기초부터
차근차근 이해하며 가려고 노력하려고 합니다.
더 나은 설명 방법이나 의견이 있으시면 댓글로 남겨주세요.
읽어주셔서 감사합니다.
'데이터 분석' 카테고리의 다른 글
[데이터 분석] 확률 밀도 함수 (0) | 2021.02.16 |
---|---|
[데이터 분석] 표준편차 | 분산 (1) | 2021.01.21 |
[데이터 분석] 대푯값 | 평균 , 중앙값 , 최빈값 (0) | 2021.01.06 |