시각화 이해하기
1. 데이터 이해하기
1.1 데이터 시각화
데이터 시각화를 위해서는 ‘데이터’가 우선적으로 필요하다. 데이터를 어떻게 시각화하냐는 데이터를 로컬하게 보냐 글로벌하게 보냐에 따라 다르다. 개별 데이터를 보여줄 것인지 전체 데이터에 대한 구성을 보여줄 것인지를 정해야 하고, 그러기 위해서는 어떤 데이터가 있고 어떤 데이터셋이 있는지 알아야 한다.
데이터에 대해서 어떤 것들을 전달할 수 있고, 어떤 데이터셋이 있는지 알아보자.
1.2 데이터의 종류
수많은 데이터셋이 있고, 데이터들은 여러 특징들로 나눌 수 있다.
- 정형 데이터
- 일반적으로 csv 파일로 제공되는 데이터이다.
- Row: 데이터 한 개 (item)
- Column: Attribute (feature)
- 가장 쉽게 시각할 수 있는 데이터셋이며 통계적 특성과 Feature 사이의 관계들로 많이 이야기할 수 있다.
- 데이터 간 비교하고, 통계적 특성들을 비교할 수 있음.
- 시계열 데이터
- 시간 흐름에 따른 데이터이며, Time-Series Data라고 한다.
- 기온, 주가 등의 정형데이터와 음성, 비디오와 같은 비정형 데이터가 존재한다.
- 시간 흐름에 따른
추세(Trend), 계절성(Seasonality), 주기성(Cycle)
등을 살필 수 있다.
- 지리 데이터
- 지도 정보와 보고자 하는 정보간의 조화가 중요하며, 지도 정보를 단순화 시키는 경우도 존재한다.
- 거리, 경로, 분포 등 다양하게 실사용에 이용되고 있다.
- 정형데이터 시각화와 다르게 실제로 어떻게 사용될 수 있을지가 중요하고, 거리 정보가 굉장히 중요하다.
- 위도 경도 등도 추가로 학습해야한다.
- 관계형(네트워크) 데이터
- 객체와 객체 간의 관계를 시각화할 수 있으며 객체는 Node로 표현하고 관계는 Link로 표현한다.
- 크기와 색, 수에 따라서 객체와 관계의 가중치를 표현한다.
- 직관적이지 않아서 Mapping 방법이 굉장히 중요하며 네트워크를 구성할 때 Huristic 하게 이용한다.
- 계층적 데이터
- 회사 조직도나 집안의 가계도 등인 Hirarchy 를 강조하는 시각화이며 보통 Tree 구조로 표현한다.
- 한국 수출 아이템에 대한 분야별 분포 등을 계층적 데이터로 시각화할 수 있다.
- 다양한 비정형 데이터
데이터는 굉장히 다양하기 때문에 대표적으로 4가지로 분류한다.
- 수치형 데이터 (Numerical)
- 연속형 (Continuous): 길이, 무게, 온도 등 데이터 간 실수값들이 존재하는 데이터
- 이산형 (Discrete): 주사위 눈금, 사람 수 등 중간이 없고 떨어져 있는 한 단위들이 데이터인 것.
- 범주형 데이터 (Categorical) - 문자열로 나타나는 것들
- 명목형 (Nominal): 혈액형, 종교, MBTI 등 순서가 딱히 중요하지 않은 데이터
- 순서형 (Ordinal): 학년, 학점, 등급 등 순서가 존재하는 데이터. 이산형으로 볼 수도 있지만 스케일 자체가 비율이 있다면 이산형, 수치가 절대적이지 않으면 순서형으로 표현하는 편이다.
시각화 이전에 이 데이터는 어떤형 데이터이기 때문에 이런 시각화를 해야겠다! 라는 접근이 필요하다.