4 minute read

DS02

데이터 이해

데이터

  • 관찰, 측정, 실험 등을 통해 수집되는 자료
  • 데이터셋(dataset) : 객체(object)의 모임

데이터 객체

  • 데이터의 각 항목(entry) 표현
  • Data sample, example, instance, point, tuple, …
  • ex)
    • 판매 데이터셋 : 고객, 물품, 구매 등
    • 의료 데이터셋 : 환자, 질병, 치료 등
    • 대학 데이터셋 : 학생, 교수, 과목 등

데이터 속성

  • 속성(attribute)
    • 데이터 객체의 성질 또는 특성
    • Dimension, Feature, …
  • 유형(type)
    • 속성에 따라 범주형과 수치형으로 구분

범주형(categorical)

  • 정성적(qualitative) 데이터들을 가리킨다.
  • 명목형(nominal)
    • 값들이 분류를 위해 단지 다른 이름을 지닌다.
    • 값이 달라짐에 따라 좋거나 나쁘다고 할 수 없다.
    • ex)
      • 혈액형, 우편번호, 인종, 정당 등
    • ex)
      • 코로나 확진 여부, 감기 감염 여부 등…
  • 순서형(ordinal)
    • 값들이 이산적이고 순서를 지님(순위 등)
    • 연속적인 값들 사이의 크기(magnitude)는 모름
    • ex)
      • 크기(소,중,대)
      • 학점(A,B,C)
      • 군대 계급 등

수치형(numerical)

  • 정량적(quantitative) 데이터들을 가리킨다.
  • 등간형(interval)
    • 값들의 차이가 의미를 지님, 절대 영점이 없음
    • ex)
      • 온도(섭씨/화씨)
      • 날짜 등
  • 비율형(ratio)
    • 값들이 절대 영점을 포함하여 비율 표현이 의미를 지님
    • ex)
      • 나이, 포켓몬 스티커 수, 소득, 무게 등

속성에 따른 데이터 분석

14

형태에 따른 데이터 분석

  • 이산형(discrete)
    • 셀 수 있는 값, 주로 정수로 표현 가능
    • ex)
      • 우편번호, 방문자수, 사고건수 등
  • 연속형(continuous)
    • 다른 수치형 속성 값, 주로 실수로 표현 가능
    • ex)
      • 온도, 길이, 무게 등 물리적인 측정 값

데이터 구분 예제

15

데이터 획득

빅데이터 수집

데이터 공유(data sharing)

  • 데이터 기반 산업 활성화 촉진을 통한 혁신과 가치 창출이 목표
  • 국가 및 지자체 공공 데이터 포탈 운영 및 활용 : https://data.go.kr/
  • 디지털 뉴딜의 핵심으로 ‘데이터 댐’ 프로젝트 추진
  • 빅데이터 플랫폼 및 센터 구축, AI 학습용 데이터 구축 : https://aihub.or.kr/

오픈 API(application programming interface)

  • 서비스, 정보, 데이터 등을 어디서나 쉽게 이용할 수 있도록 허용
  • 데이터를 제어할 수 있는 간단하고 직관적인 인터페이스 제공
  • 웹을 통한 데이터 수집이 가능해 복잡한 환경 구성 필요 없음
  • 서비스 제공자의 정책에 따라 제공하는 데이터 범위 결정

데이터 종류

기록 데이터(record data)

  • 관계형 기록(relational records)
    • 기록의 모임으로 구성된 데이터, 각 객체는 일정한 수의 속성을 지님
  • 데이터 행렬(data matrix)
    • 각 객체는 일정한 수의 속성으로 구성되며 모두 수치형 데이터
    • m x n 행렬로 표현, m: 객체의 수, n: 속성의 수
  • 문서 데이터(document data)
    • 각 문서에 대해 항(term)은 속성 또는 벡터의 성분(component)
    • 각 성분의 값은 문서에 해당 항이 몇 차례 등장했는지 기록
    • Term-document matrix(TDM)
  • 트랜잭션 데이터(transaction data)
    • 각 기록(record, transaction)이 항목(item)들의 집합 포함
    • ex)
      • 고객이 구해한 상품(product)들의 집합 내역
    • Market basket data

그래프 데이터(Graph data)

  • 월드 와이드 웹(World Wide Web)
    • 웹 페이지 사이의 HTML 링크를 그래프로 표현
  • 소셜 네트워크(social networks)
    • 사용자 사이의 관계(친구, 팔로워 등)를 그래프로 표현
    • ex)
      • 페이스북, 인스타그램, 트위터 등
  • 구매 내역(purchage histories)
    • 상품과 고객 사이의 구매 내역을 그래프로 표현
      • ex)
        • amazon

순서 데이터(ordinal data)

  • 순차 데이터(sequential data)
    • 트랜잭션이 시간 순으로 나열됨
  • 시계열 데이터(time-series data)
    • 시간 간격마다 측정되는 데이터 포인트들의 수열
  • 염기서열 데이터(nucleic sequence data)
    • 유전자 염기 서열은 A,G,C,T의 수열
  • 이동경로 데이터(trajectory data)
    • 이동 객체의 위치 및 시간 순서의 수열

데이터 시각화

데이터 탐색

  • 데이터 표현, 시각화를 통한 이해 → EDA 과정

데이터의 기초 통계 표현

데이터의 전반적인 경향 측정

  • 표(table)
    • 데이터를 나열한 구조
  • 히트맵(heatmap)
    • 표 + 색상을 사용한 시각화
  • 평균(mean)
    • 데이터셋의 값들의 합을 수로 나눈 값
  • 중간값(media)
    • 순서가 있는 데이터셋의 중간값, 값의 수가 짝수인 경우 중간의 두 값의 평균
    • 구간(interval)에 대한 빈도(frequence)로 데이터가 주어지는 경우, 중간값이 속한 구간에서 보간법(interpolation)을 적용하여 근사 가능
  • 최빈값(mode)
    • 데이터셋에서 가장 많이 발생한 값
    • 최빈값이 하나인 분포는 unimodal, 둘인 경우 bimodal, 복수인 경우 multimodal
  • 대칭 및 왜곡된 분포
    • 하나의 대푯값들로는 데이터의 특성을 모두 파악하기 어려울 때 사용
    • 평균, 중간값, 최빈값을 통한 왜곡된(skewed) 경향 파악
    • 확률 분포에 대한 모멘트 활용

데이터의 퍼진 정도 측정

  • 분산(variance)
    • 데이터의 퍼진 정도에 대한 대푯값
    • 모분산(population variance)
    • 표본분산(sample variance)

      16

  • 표준편차(standard deviation)
    • 데이터의 퍼진 정도에 대한 대푯값
    • 분산의 제곱근, 즉, S 또는 σ
  • 사분위수(quartile)
    • 100p 백분위수(percentile): 데이터셋에서 100p 작은 값에 해당하는 값
    • Q1(25 백분위수), Q2(50 백분위수), Q3(75 백분위수)
    • 사분위수 범위(inter-quartile range) : IQR = Q3 - Q1
    • 5가지 요약 수치(five number summary) : 최솟값(min), Q1, 중간값, Q3 최댓값(max)
    • 이상치(outlier): [Q1 -1.5 x IQR, Q3 + 1.5 x IQR]

17

기초 통계를 설명하는 시각 표현

  • 박스플롯(box plot)
    • 데이터의 min, Q1, median, Q3, max로 표현
    • Q1부터 Q3 범위를 구분하는 선으로 표현
    • median은 박스를 구분하는 선으로 연결
    • min과 max는 박스를 관통하는 선으로 연결
    • 이상치: 선을 넘는 값들을 점으로 표현
    • ex)
      • 데이터 포인트: 21, 23, 24, 25, 29, 33, 49
      • Q1 = 24, Q2 = 25, Q3 = 33, IQR = 10
      • 이상치:
        • [23 - 1.5 x 10, 33 + 1.5 x 10] = [8, 48] 밖의 값 → 49

        17

  • 막대 차트(bar chart)
    • 데이터의 분포를 파악하기 위해 막대로 값을 비교
    • 잘못 해석되지 않도록 표현 방식에 주의
    • 범위, 굵기 등을 변경 가능
    • 수직적(vertical), 수평적(horizontal) 막대 표현 가능
    • 변수가 다중인 경우 한꺼번에 표현 가능
  • 누적 막대 차트(stacked bar chart)
    • 막대 위에 막대를 쌓아서 강조 가능
    • 전체 중 비율을 원형 차트(pie chart)가 아닌 막대로도 표현 가능
  • 선 그래프(line graph)
    • 데이터 변화의 흐름, 경향 파악
    • 여러 그래프를 중첩하거나 범위를 함께 표현 가능
  • 기울기 그래프(slope graph)
    • 값이 변하는 정도를 비교하여 표현 가능
  • 산점도(scatterplot)
    • 데이터의 변수 간 관계를 시각화
    • 특정 기준값에 대해서 색을 달리하는 형태로 강조 가능
  • 상관관계(correlation coefficient)
    • Pearson의 상관계수
    • -1 ~ 1 사이의 값, 범위에 따라 양/음의 선형 상관관계 표현