반응형

전체 글 103

[VScode] C++ 환경 설정

안녕하세요, 이승혁입니다. visual studio code, vscode는 다양한 개발 언어도 지원하고 터미널에서 바로 git 연동도 되기 때문에 많이 사용하는데요. C++ 언어는 바로 사용이 안되더라구요 설치 과정 기록 남겨드립니다.(Window11) 1. Visual Stuido Code 설치 https://code.visualstudio.com/주소창으로 들어가셔서 다운받아주세요 "Download for free" 클릭하시면 됩니다 2. MinGW64 설치 https://code.visualstudio.com/docs/cpp/config-mingw 위 주소창으로 가셔서요 파랗게 되어있는 MSYS2 누르세요. 제 글의 MSYS2를 누르셔도 됩니다. 그 후 Installation 항목 아래 msys2..

알고리즘 2023.11.25

[스파이더맨 노웨이홈] 역대 스파이더맨 중 인기 1위는 ?

안녕하세요, 12월25일 개봉한 스파이더맨 노웨이홈에서 역대 스파이더맨이 총 출연하여 큰 흥행을 하고 있으며 이와 더불어 각자 자신이 좋아하는 세대와 그 이유를 말하며 많은 토론이 진행중인데요 그 리뷰들을 통해 어느 스파이더맨이, 왜 인기가 가장 많은지 분석해 보았습니다. https://www.youtube.com/watch?v=-VnJZNEHNAk&t=23s

[스타벅스 리유저블 컵 이벤트] 소비자 반응 분석

안녕하세요 2021년 9월 28일 스타벅스에서 진행한 친환경 리유저블 컵 제공 이벤트에 대한 소비자 반응을 분석해 보았습니다. 근로자와의 문제로 이슈가 되었던 스타벅스, 친환경 컵 제공 이벤트를 이용한 소비자의 반응은 어떤지 AI 분석 솔루션으로 확인했습니다. https://www.youtube.com/watch?v=wt4Y6_BLa2I&t=5s

[위드코로나] AI로 확인한 위드코로나 성공 방안

안녕하세요, 이승혁입니다. 11월 1일부터 시작되는 위드코로나에 대한 대한민국 국민들의 인식을 헤일로 에이트 인공지능 텍스트 분석 솔루션을 통해 분석 진행하여, 국민들이 직접 이야기하는 방향/성공적으로 위드코로나가 시행되는 방향에 대한 텍스트 리뷰 데이터 분석을 진행/분석 영상 유튜브 업로드 하였습니다. 랜덤 데이터이며, 적은 모수로 진행하여 너무 진지하게 받아들이지 마시고 재밌고 짧은 시간에 불특정 다수들이 이야기하는 내용을 인사이트풀하게 분석해 보았으니 가볍게 봐주시면 감사하겠습니다^^ https://www.youtube.com/watch?v=UrobqeJN15E

[스트릿우먼파이터,스우파] 우승팀 예측하기

안녕하세요, 이승혁입니다. 지난 번 텍스트 분석 솔루션을 이용해 오징어 게임 국내/해외 시청자 반응 비교 분석 포스팅을 했는데요, 2차로 스트릿 우먼 파이터, 스우파의 6개 팀 중 우승 팀을 예측한 분석 영상을 유튜브에 업로드 했어요. 시청자 반응을 크롤링 하여 각 팀들에 대한 특징을 파악하고, 이에 따른 조회수를 통해 상위권 팀과 하위권 팀 분류, 그리고 데이터에서 등장한 키워드를 통해 우승 가능성이 높은 팀을 예측해 보았습니다. 하위권 팀 중 한 팀은 8화 예고편에서 탈락 위기의 팀으로 선정되어 분석 결과에 의미를 더할 수 있었는데요, 우승팀도 과연 분석한 결과와 일치할까요 ? 기대가됩니다. https://www.youtube.com/watch?v=8aGF9eqEZD4&t=8s

[데이터 분석] 오징어 게임 국내/해외 시청자 리뷰 분석

안녕하세요, 이승혁 입니다. 한국 드라마 최초 Netflix 시청률 1위를 달성하는 대 기록을 세우며 국내, 해외 시청자 가릴 것 없이 뜨거운 관심과 사랑을 받고 있는 오징어 게임이 연일 화제가 되었습니다. 오징어 게임 관련 유튜브 영상은 엄청난 조회수를 자랑하며 조회수 치트키 주제가 되었습니다. 이에 국내 시청자와 해외 시청자의 반응을 비교해 보고자 했는데요 유튜브 댓글과 헤일로 에이트의 인공지능 텍스트 분석 솔루션 루미노소를 사용하여 빠르고 쉽게 국내/해외 시청자들의 반응을 확인하고 비교해 보았습니다. 유튜브 영상으로 업로드 했습니다! 재밌게 봐주세요!! https://www.youtube.com/watch?v=yRj3qaNHcW4

[Python algo] 연속 확률 밀도 함수 데이터 생성 및 시각화

※ 확률밀도 함수란? 연속확률변수가 주어진 어떤구간 내에 포함될 확률입니다. 이를 함수형태로 나타낸 것이 확률밀도함수라고 합니다. 확률밀도 함수는 X축에는 확률변수의 값을 Y축에는 확률변수가 갖는 일정 구간 값이 나타날 확률을 표현한 곡선입니다. 확률밀도 함수는 구간을 정해서 넓이를 구하면 그 값이 확률이 됩니다. 즉, 확률밀도 함수에서 전체 넓이는 1을 의미합니다. ※ 연속 확률 밀도에 대해서 정리한 포스팅을 참고하세요 2021/02/16 - [데이터 분석] - [데이터 분석] 확률 밀도 함수 [데이터 분석] 확률 밀도 함수 지난 시간에 확률 변수와 확률 질량 함수에 대해 공부했습니다. 확률이 흩어져 있는 확률 분포, 이를 함수를 사용해 표현합니다. 확률 질량 함수는 이산형 확률 변수에 관한 확률 분포..

알고리즘 2021.02.17

[데이터 분석] 확률 밀도 함수

지난 시간에 확률 변수와 확률 질량 함수에 대해 공부했습니다. 확률이 흩어져 있는 확률 분포, 이를 함수를 사용해 표현합니다. 확률 질량 함수는 이산형 확률 변수에 관한 확률 분포였습니다. 오늘은 연속형 확률 변수에 관한 확률 분포입니다. ### 연속 확률 분포 이산형 확률은 각 확률 변수에 대한 확률이 딱 떨어지게 구할 수 있었습니다. 주사위를 던졌을 때 3이나올 확률은 확률변수 X가 3인 확률입니다. 연속형 확률 변수에서 확률을 구할 때는 범위로 표현하여 구합니다. 초등학생 3명을 뽑았을 때 키가 150이상 160이하일 확률과 같이 나타냅니다. 경우의 수가 무한대인 연속 확률 변수의 분포를 설명하려면 특정한 값이 아닌 구간을 지정해 확률을 설명해야 합니다! ### 누적 확률 분포 초시계를 봤을 때 1..

데이터 분석 2021.02.16

[Pandas] 데이터 전처리 | 범주형 데이터 | 구간 분할 | 더미 변수

※ 범주형 자료 수치형 자료 : 양적 데이터 , 양적 자료 범주형 자료 : 질적 데이터 , 질적 자료 범주형 자료는 순위형 자료, 명목형 자료로 구분할 수 있습니다. 순위형 : 범주 간 순서가 있는 자료입니다. 평점(1~5점) , 선호도(매우 나쁨~매우 좋음) 등이 있습니다. 명목형 : 범주 간에 순서가 의미 없는 자료입니다. 혈액형(A,B,O,AB) , 성별(남/여) 등이 있습니다. ★ 범주형 자료도 수치형 자료도 표현할 수 있다 ★ 순위형 자료의 평점 , 명목형 자료의 반(1반,2반,3반 등) 혹은 남자는 1, 여자는 0과 같이 나타냅니다. 이때 수치는 서열을 나타낼 수도, 나타내지 않을 수도 있습니다. ### 범주형 데이터 처리 ## 구간 분할 데이터 분석 알고리즘에 따라 연속한 데이터를 그대로 사..

[Pandas] 데이터 전처리 | 데이터 표준화 | 단위 변환 | 자료형 변환

실무에서 접하는 데이터 셋은 다양한 형태로 만들어 집니다. 여러 곳에서 수집한 데이터는 대문자와 소문자 , 풀네임과 축약어 등 다양하게 표현됩니다. 또, 단위가 다르게 같은 대상을 표현하는 경우도 많습니다. 그에 따라 단위 환산과 같은 과정을 통해 변환을 해 줄 필요가 있습니다. ### 데이터 표준화 동일한 대상을 표현하는 방법에 차이가 존재합니다. 이는 분석의 정확도를 낮추는 것으로 일관성 있는 포맷으로 변환해줍니다. ## 단위 환산 같은 데이터 셋 안에서 다른 측정 단위를 사용하면 일관성 측면에서 문제가 발생합니다. 또한 외국 데이터를 사용해 우리나라에서 적용하려면 화폐, 거리 등의 단위를 변경해주어야 합니다. UCI 자동차 연비 데이터셋을 활용해 해당 예시를 적용해 보겠습니다. mpg(mile pe..

[Pandas] 데이터 전처리 | Seaborn | 누락 데이터 | 중복 데이터

딥러닝과 다르게 머신러닝은 데이터의 전처리가 중요합니다. 데이터의 품질이 분석 모델의 성능을 좌우합니다. 데이터의 평균, 분포 등을 파악한 후 누락 데이터, 중복 데이터와 같은 이상 데이터를 처리합니다. 이번 시간에는 데이터의 결측치와 중복된 값을 전처리하는 과정을 실습해보도록 하겠습니다. 사용 데이터는 파이썬 내장 라이브러리 seaborn의 titanic 데이터 입니다. ※ titanic 데이터 ? 탑승객의 생존 여부를 예측하는 데이터 입니다. 나이, 성별, 가족 수, 객실 등급 등의 데이터가 존재하며 자주 사용되는 데이터 입니다. 다음은 seaborn에서 사용 가능한 데이터셋의 목록입니다. import seaborn as sns print(sns.get_dataset_names()) ### 누락 데이..

[Pandas] 데이터 시각화 | Matplotlib | 파이차트 | 박스그래프

안녕하세요! 오늘은 Matplotlib 모듈을 사용한 시각화 마지막 시간입니다. 파이차트와 박스그래프를 사용해 데이터를 시각화 해보도록 하겠습니다. # 파이 차트(Pie chart) 흔히 생각하는 파이(Pie)라는 빵 종류의 모양을 띈 그래프입니다. 파이의 각 크기는 해당 변수가 차지하는 비율로 나타납니다. 실제 데이터의 양이나 개수가 아닌, 전체 데이터를 100으로 보았을 때 백분율을 사용하여 데이터를 나타냅니다. 데이터의 종류가 너무 많거나, 적은 비율을 차지하는 데이터가 많은경우 시각화를 해도 정확하게 확인하기 힘들 수 있습니다. import matplotlib.pyplot as plt import csv f=open('d:\\판다스 실습\\emp2.csv','r') job=[] data=f.rea..

[Pandas] 데이터 시각화 | Matplotlib | 히스토그램 | 산점도

# 히스토그램 그래프 단변수 데이터 빈도수를 그래프로 나타냅니다. 즉, 하나의 변수인 데이터를 같은 여러 구간으로 나누고 구간 내 속한 데이터 개수를 사용해 그래프를 그립니다. 보통 히스토그램에서 가로축이 계급, 세로축이 도수를 뜻합니다. 계급(변수의 구간)은 서로 겹치지 않고, 붙어있어야 합니다. 일반 막대 그래프는 가로축(변수의 구간)은 생각하지 않고 세로축의 높이만 생각하며 그래프를 확인합니다. 히스토 그램 그래프는 가로축과 세로축을 함께 생각하며 그래프를 확인합니다. 계급 : 변수의 구간 도수 : 그 사건이 일어난 횟수 , 계급에 속하는 자료의 수 도수 분포 : 표본의 다양한 산출 분포를 보여주는 목록 계급 도수 160 미만 8 165 미만 15 170 미만 22 175 미..

[Pandas] 데이터 시각화 | Matplotlib | 면적 그래프 | 막대 그래프

지난 포스팅에서는 그래프를 분할, 누적 및 꾸미는 방법을 알아봤습니다. 이번 시간에는 다양한 그래프를 그래는 방법을 공부하도록 하겠습니다. # 면적 그래프 면적 그래프는 선 그래프와 x축 사이에 색을 입힙니다. 선이나 점이 아닌 도형의 면적을 이용 통계 수치의 크기를 나타냅니다. 선or 막대 그래프 -> 변화의 추이를 살펴보는데 유용 면적 그래프 -> 두 개 이상의 자료 비교시 유용 투명도(alpha), 누적여부(stacked) 등의 옵션을 사용할 수 있습니다. 누적 여부는 각 열의 선 그래프를 다른 열에 쌓아 올리는 방식입니다. ㆍstacked=True 분기별 판매량과 같은 수치를 누적해서 확인할 때 사용합니다. ㆍstacked=False 분기별 판매량과 같은 수치를 비교할 때 사용합니다. import..

[데이터 분석] 확률 변수(Random Variable)

데이터를 분석할 때 필요하다고 느낀 부분들을 공부하려 합니다. 데이터의 확률, 분포, 예측을 할 때 필요한 확률과 통계에 대한 개념을 공부하고 이를 간단하게 정리하여 공유하려고 합니다. ## 확률 변수(Random Variable) 표본 공간 : 발생 가능한 모든 결과들의 집합 확률 변수 : 표본 공간의 각 원소에 하나의 확률을 대응시킬 때 그 실수를 확률변수라고 합니다. 확률 변수는 하나의 원소를 확률에 대응시키므로 함수라고 할 수 있습니다. 일반적으로 X로 나타냅니다. 표본 공간의 각 사건에 대한

데이터 분석 2021.01.29

[Python algo] 분산 구하기 | 표준편차 구하기

안녕하세요. 분산 / 표준편차 값들은 데이터의 퍼짐을 파악하기 위해 필요한 값입니다. # 분산 ? 표준편차 ? 2021/01/21 - [데이터 분석] - [데이터 분석] 표준편차 | 분산 [데이터 분석] 표준편차 | 분산 안녕하세요 지난 데이터 분석 포스팅 시간에는 대푯값에 대해 공부했습니다. 평균 / 중앙값 / 최빈값 각 의미와 사용시 장단점을 알아보았습니다. # 데이터 탐색 순서 평균값 -> 중앙값 -> 최빈 lsh-story.tistory.com 파이썬에는 분산 , 표준편차를 구하는 다양하고 편한 함수들이 있습니다. Numpy , pandas , math 등 다양한 모듈을 사용하면 분산과 표준편차를 쉽고 간단하게 구할 수 있습니다. 하지만 직접 분산과 표준편차를 구할 수 있는 코드를 구현하면서 분산..

알고리즘 2021.01.21

[데이터 분석] 표준편차 | 분산

안녕하세요 지난 데이터 분석 포스팅 시간에는 대푯값에 대해 공부했습니다. 평균 / 중앙값 / 최빈값 각 의미와 사용시 장단점을 알아보았습니다. # 데이터 탐색 순서 평균값 -> 중앙값 -> 최빈값 -> | 범위 -> 사분위수 범위 -> 분산값 -> 표준편차값 데이터 중심 어디 ? 데이터 분포 파악 # 자료의 특징을 알아보는 2가지 방법 대푯값 & 산포도 대푯값은 자료들의 중심에 관한 위치를 나타내는 값으로 생각할 수 있습니다. 산포도는 자료들이 대푯값을 중심으로 흩어진 정도를 나타내는 값입니다. # 산포도 대푯값을 중심으로 자료들이 퍼진 정도입니다. 수치가 작을수록 대푯값에 가깝게 뭉쳐있습니다. 수치가 클 수록 대푯값에 멀리 흩어져 있습니다. 데이터의 평균이 같더라도 산포도를 통해 데이터의 퍼짐 정도를 ..

데이터 분석 2021.01.21
반응형
반응형