지난 시간에 확률 변수와 확률 질량 함수에 대해 공부했습니다.
확률이 흩어져 있는 확률 분포, 이를 함수를 사용해 표현합니다.
확률 질량 함수는 이산형 확률 변수에 관한 확률 분포였습니다.
오늘은 연속형 확률 변수에 관한 확률 분포입니다.
### 연속 확률 분포
이산형 확률은 각 확률 변수에 대한 확률이 딱 떨어지게 구할 수 있었습니다.
주사위를 던졌을 때 3이나올 확률은 확률변수 X가 3인 확률입니다.
연속형 확률 변수에서 확률을 구할 때는 범위로 표현하여 구합니다.
초등학생 3명을 뽑았을 때 키가 150이상 160이하일 확률과 같이 나타냅니다.
경우의 수가 무한대인 연속 확률 변수의 분포를 설명하려면
특정한 값이 아닌 구간을 지정해 확률을 설명해야 합니다!
### 누적 확률 분포
초시계를 봤을 때 1~10초 사이일 확률 -> 10/60 --> 1/6
초시계를 봤을 때 1~20초 사이일 확률 -> 20/60 --> 2/6
초시계를 봤을 때 1~30초 사이일 확률 -> 30/60 --> 3/6
위와 같이 누적되어 가는 확률 분포를 누적 확률 분포라고 합니다.
F(x) 기호를 사용하며, x는 범위의 끝을 뜻합니다.
F(10) : -무한대 ~ 10 구간 내 존재 확률
모든 경우의 합은 1이 됩니다.
F(-무한대) : 0
F(무한대) : 1
### 확률 밀도 함수
누적 확률 분포를 사용하면, 해당 값이 갖는 확률을 알 수 없습니다.
즉, 어떤 확률 변수가 더 자주 등장할지 알 수 없습니다.
이를 해결하기 위해서 확률 변수가 나오는 전체 구간을
작은 폭으로 나눈 후, 각 구간의 확률을 살펴보면 됩니다.
※ 구간의 폭을 정하는 것이 문제 !
함수의 미분을 이용해 , 함수의 구간의 기울기를 계산합니다.
누적 밀도 함수를 미분한 함수를 확률 밀도 함수라고 합니다.
특징은 다음과 같습니다.
음의 무한대~무한대 적분하면 1이 나옵니다.
확률 밀도 함수는 0보다 같거나 큽니다.
x=np.x1=np.linspace(-5,5,50)
y=sp.stats.norm.cdf(x)
z=np.insert(np.diff(y),0,None)
w=10/50
plt.bar(x-w,z/w,width=w)
x1=np.linspace(-5,5,300)
y1=sp.stats.norm.pdf(x1)
plt.plot(x1,y1,'red');
'데이터 분석' 카테고리의 다른 글
[데이터 분석] 확률 변수(Random Variable) (0) | 2021.01.29 |
---|---|
[데이터 분석] 표준편차 | 분산 (1) | 2021.01.21 |
[데이터 분석] 대푯값 | 평균 , 중앙값 , 최빈값 (0) | 2021.01.06 |