시각화 이해하기

1. 데이터 이해하기

1.1 데이터 시각화

데이터 시각화를 위해서는 ‘데이터’가 우선적으로 필요하다. 데이터를 어떻게 시각화하냐는 데이터를 로컬하게 보냐 글로벌하게 보냐에 따라 다르다. 개별 데이터를 보여줄 것인지 전체 데이터에 대한 구성을 보여줄 것인지를 정해야 하고, 그러기 위해서는 어떤 데이터가 있고 어떤 데이터셋이 있는지 알아야 한다.

데이터에 대해서 어떤 것들을 전달할 수 있고, 어떤 데이터셋이 있는지 알아보자.

1.2 데이터의 종류

수많은 데이터셋이 있고, 데이터들은 여러 특징들로 나눌 수 있다.

  • 정형 데이터
    • 일반적으로 csv 파일로 제공되는 데이터이다.
    • Row: 데이터 한 개 (item)
    • Column: Attribute (feature)
    • 가장 쉽게 시각할 수 있는 데이터셋이며 통계적 특성과 Feature 사이의 관계들로 많이 이야기할 수 있다.
    • 데이터 간 비교하고, 통계적 특성들을 비교할 수 있음.
  • 시계열 데이터
    • 시간 흐름에 따른 데이터이며, Time-Series Data라고 한다.
    • 기온, 주가 등의 정형데이터와 음성, 비디오와 같은 비정형 데이터가 존재한다.
    • 시간 흐름에 따른 추세(Trend), 계절성(Seasonality), 주기성(Cycle) 등을 살필 수 있다.
  • 지리 데이터
    • 지도 정보와 보고자 하는 정보간의 조화가 중요하며, 지도 정보를 단순화 시키는 경우도 존재한다.
    • 거리, 경로, 분포 등 다양하게 실사용에 이용되고 있다.
    • 정형데이터 시각화와 다르게 실제로 어떻게 사용될 수 있을지가 중요하고, 거리 정보가 굉장히 중요하다.
    • 위도 경도 등도 추가로 학습해야한다.
  • 관계형(네트워크) 데이터
    • 객체와 객체 간의 관계를 시각화할 수 있으며 객체는 Node로 표현하고 관계는 Link로 표현한다.
    • 크기와 색, 수에 따라서 객체와 관계의 가중치를 표현한다.
    • 직관적이지 않아서 Mapping 방법이 굉장히 중요하며 네트워크를 구성할 때 Huristic 하게 이용한다.
  • 계층적 데이터
    • 회사 조직도나 집안의 가계도 등인 Hirarchy 를 강조하는 시각화이며 보통 Tree 구조로 표현한다.
    • 한국 수출 아이템에 대한 분야별 분포 등을 계층적 데이터로 시각화할 수 있다.
  • 다양한 비정형 데이터

데이터는 굉장히 다양하기 때문에 대표적으로 4가지로 분류한다.

  • 수치형 데이터 (Numerical)
    • 연속형 (Continuous): 길이, 무게, 온도 등 데이터 간 실수값들이 존재하는 데이터
    • 이산형 (Discrete): 주사위 눈금, 사람 수 등 중간이 없고 떨어져 있는 한 단위들이 데이터인 것.
  • 범주형 데이터 (Categorical) - 문자열로 나타나는 것들
    • 명목형 (Nominal): 혈액형, 종교, MBTI 등 순서가 딱히 중요하지 않은 데이터
    • 순서형 (Ordinal): 학년, 학점, 등급 등 순서가 존재하는 데이터. 이산형으로 볼 수도 있지만 스케일 자체가 비율이 있다면 이산형, 수치가 절대적이지 않으면 순서형으로 표현하는 편이다.

시각화 이전에 이 데이터는 어떤형 데이터이기 때문에 이런 시각화를 해야겠다! 라는 접근이 필요하다.

2. 시각화 이해하기

2.1 마크와 채널

  • 시각화는 보통 그래픽에서 가장 중요한 세 단위(점, 선, 면(mark)) 로 이루어진 데이터를 어떤 식으로 나타내고 어떤 식으로 조화할 지에 대한 고민으로 이루어진다.
  • 점, 선, 면에서 어떠한 Variation을 줄 수 있는지를 visual channel 이라고 하는데, 각 마크를 변경할 수 있는 요소들을 말한다. 평행하게 움직이는지, 수직적으로 움직이는지, 아니면 동시적으로 움직이는지, 길이나 색, 기울기, 모양 등을 변경할 수 있다.
  • 즉 시각화에서는 점, 선, 면을 어떻게 다루고 어떻게 시각화를 할 수 있을지부터 시작한다.

2.2 전주의적 속성

데이터에서 변경시킬 수 있는 요소 중에서 주의를 주지 않아도 인지하게 되는 요소를 전주의적 요소 (Pre-attentive Attribute) 라고 한다.

image-20210822003427676

딱 눈으로 봤을 때 직관적으로 기존과 다르다는 인사이트를 바로 전달될 수 있게 사용하는 것이 중요하다.

하지만 점주의적 속성들은 동시에 사용했을 때 인지하기 어렵기 때문에 데이터 자체는 시각적인 분리가 잘 이루어지는 데이터인 경우에도 직관적으로 한 눈에 보기 어려운 경우가 생길 수 있다. 즉 전주의적 속성은 적재적소에 시각화하는 것이 중요하다.

Author

Yohan Lee

Posted on

2021-08-16

Updated on

2021-08-22

Licensed under

댓글