반응형

범주형 데이터 2

[Pandas] 데이터 전처리 | 범주형 데이터 | 구간 분할 | 더미 변수

※ 범주형 자료 수치형 자료 : 양적 데이터 , 양적 자료 범주형 자료 : 질적 데이터 , 질적 자료 범주형 자료는 순위형 자료, 명목형 자료로 구분할 수 있습니다. 순위형 : 범주 간 순서가 있는 자료입니다. 평점(1~5점) , 선호도(매우 나쁨~매우 좋음) 등이 있습니다. 명목형 : 범주 간에 순서가 의미 없는 자료입니다. 혈액형(A,B,O,AB) , 성별(남/여) 등이 있습니다. ★ 범주형 자료도 수치형 자료도 표현할 수 있다 ★ 순위형 자료의 평점 , 명목형 자료의 반(1반,2반,3반 등) 혹은 남자는 1, 여자는 0과 같이 나타냅니다. 이때 수치는 서열을 나타낼 수도, 나타내지 않을 수도 있습니다. ### 범주형 데이터 처리 ## 구간 분할 데이터 분석 알고리즘에 따라 연속한 데이터를 그대로 사..

[Pandas] 데이터 전처리 | 데이터 표준화 | 단위 변환 | 자료형 변환

실무에서 접하는 데이터 셋은 다양한 형태로 만들어 집니다. 여러 곳에서 수집한 데이터는 대문자와 소문자 , 풀네임과 축약어 등 다양하게 표현됩니다. 또, 단위가 다르게 같은 대상을 표현하는 경우도 많습니다. 그에 따라 단위 환산과 같은 과정을 통해 변환을 해 줄 필요가 있습니다. ### 데이터 표준화 동일한 대상을 표현하는 방법에 차이가 존재합니다. 이는 분석의 정확도를 낮추는 것으로 일관성 있는 포맷으로 변환해줍니다. ## 단위 환산 같은 데이터 셋 안에서 다른 측정 단위를 사용하면 일관성 측면에서 문제가 발생합니다. 또한 외국 데이터를 사용해 우리나라에서 적용하려면 화폐, 거리 등의 단위를 변경해주어야 합니다. UCI 자동차 연비 데이터셋을 활용해 해당 예시를 적용해 보겠습니다. mpg(mile pe..

반응형
반응형