프로젝트
Tableau 실력향상 프로젝트
원띵재
2025. 3. 30. 21:21
프로젝트 기간 :
2025.03.30 ~ 2025.03.31
1. 데이터 획득 및 정제
데이터는 간편하게 얻을 수 있는 코로나 데이터 활용
한국 데이터만 따로 저장해서 시각화할 예정
import pandas as pd
# 데이터 로드
url = 'https://covid.ourworldindata.org/data/owid-covid-data.csv'
data = pd.read_csv(url)
# 특정 국가 데이터 필터링 (예: 대한민국)
korea_data = data[data['iso_code'] == 'KOR']
# 날짜 형식 변환
korea_data['date'] = pd.to_datetime(korea_data['date'])
# 필요한 열 선택
korea_data = korea_data[['date', 'new_cases', 'new_deaths', 'total_cases', 'total_deaths']]
# 결측값 처리
korea_data.fillna(0, inplace=True)
# CSV로 저장
korea_data.to_csv('korea_covid_data.csv', index=False)
2. tableau 활용 데이터 시각화
1 그래프) 새로운 확진자, 새 사망자 수
2 그래프) 총 확진자, 총 사망자 수
그래프로 얻고 싶은 사망자가 전체 확진자의 비율은 보기 어려운 단점이 있음.
의료 시설이 코로나에 맞춰지면서 효과가 있었는지를 확인하고 싶음.
▶ 해결 방식 : Tableau에서 데이터 생성 > death / case
1 그래프) 신규 사망자 / 신규 확진자
2 그래프) 총 사망자 / 총 확진자
이상하게 사망자 비율이 %가 아님에도 1보다 큰 숫자가 나옴.
원인 : 태블로 분석의 데이터 집계가 자동으로 이루어지는 현상 때문
수정 >
실제로 의료기술이 발달로 사망률이 해가 갈수록 엄청 줄어드는 것을 볼 수 있고,
2023년부터는 집계가 제대로 이루어지지 않아서 데이터의 불확실성때문에 0으로 집계되었음.
추가할 사항:
현재 tableau의 이미지를 캡쳐하는 방식으로 그래프를 업로드 하였는데
이후 그래프 자체를 업로드하는 방식 공부