반응형

데이터 전처리 2

[Pandas] 데이터 전처리 | 데이터 표준화 | 단위 변환 | 자료형 변환

실무에서 접하는 데이터 셋은 다양한 형태로 만들어 집니다. 여러 곳에서 수집한 데이터는 대문자와 소문자 , 풀네임과 축약어 등 다양하게 표현됩니다. 또, 단위가 다르게 같은 대상을 표현하는 경우도 많습니다. 그에 따라 단위 환산과 같은 과정을 통해 변환을 해 줄 필요가 있습니다. ### 데이터 표준화 동일한 대상을 표현하는 방법에 차이가 존재합니다. 이는 분석의 정확도를 낮추는 것으로 일관성 있는 포맷으로 변환해줍니다. ## 단위 환산 같은 데이터 셋 안에서 다른 측정 단위를 사용하면 일관성 측면에서 문제가 발생합니다. 또한 외국 데이터를 사용해 우리나라에서 적용하려면 화폐, 거리 등의 단위를 변경해주어야 합니다. UCI 자동차 연비 데이터셋을 활용해 해당 예시를 적용해 보겠습니다. mpg(mile pe..

[Pandas] 데이터 전처리 | Seaborn | 누락 데이터 | 중복 데이터

딥러닝과 다르게 머신러닝은 데이터의 전처리가 중요합니다. 데이터의 품질이 분석 모델의 성능을 좌우합니다. 데이터의 평균, 분포 등을 파악한 후 누락 데이터, 중복 데이터와 같은 이상 데이터를 처리합니다. 이번 시간에는 데이터의 결측치와 중복된 값을 전처리하는 과정을 실습해보도록 하겠습니다. 사용 데이터는 파이썬 내장 라이브러리 seaborn의 titanic 데이터 입니다. ※ titanic 데이터 ? 탑승객의 생존 여부를 예측하는 데이터 입니다. 나이, 성별, 가족 수, 객실 등급 등의 데이터가 존재하며 자주 사용되는 데이터 입니다. 다음은 seaborn에서 사용 가능한 데이터셋의 목록입니다. import seaborn as sns print(sns.get_dataset_names()) ### 누락 데이..

반응형
반응형