Ds02
DS02
데이터 이해
데이터
- 관찰, 측정, 실험 등을 통해 수집되는 자료
- 데이터셋(dataset) : 객체(object)의 모임
데이터 객체
- 데이터의 각 항목(entry) 표현
- Data sample, example, instance, point, tuple, …
- ex)
- 판매 데이터셋 : 고객, 물품, 구매 등
- 의료 데이터셋 : 환자, 질병, 치료 등
- 대학 데이터셋 : 학생, 교수, 과목 등
데이터 속성
- 속성(attribute)
- 데이터 객체의 성질 또는 특성
- Dimension, Feature, …
- 유형(type)
- 속성에 따라 범주형과 수치형으로 구분
범주형(categorical)
- 정성적(qualitative) 데이터들을 가리킨다.
- 명목형(nominal)
- 값들이 분류를 위해 단지 다른 이름을 지닌다.
- 값이 달라짐에 따라 좋거나 나쁘다고 할 수 없다.
- ex)
- 혈액형, 우편번호, 인종, 정당 등
- ex)
- 코로나 확진 여부, 감기 감염 여부 등…
- 순서형(ordinal)
- 값들이 이산적이고 순서를 지님(순위 등)
- 연속적인 값들 사이의 크기(magnitude)는 모름
- ex)
- 크기(소,중,대)
- 학점(A,B,C)
- 군대 계급 등
수치형(numerical)
- 정량적(quantitative) 데이터들을 가리킨다.
- 등간형(interval)
- 값들의 차이가 의미를 지님, 절대 영점이 없음
- ex)
- 온도(섭씨/화씨)
- 날짜 등
- 비율형(ratio)
- 값들이 절대 영점을 포함하여 비율 표현이 의미를 지님
- ex)
- 나이, 포켓몬 스티커 수, 소득, 무게 등
속성에 따른 데이터 분석
형태에 따른 데이터 분석
- 이산형(discrete)
- 셀 수 있는 값, 주로 정수로 표현 가능
- ex)
- 우편번호, 방문자수, 사고건수 등
- 연속형(continuous)
- 다른 수치형 속성 값, 주로 실수로 표현 가능
- ex)
- 온도, 길이, 무게 등 물리적인 측정 값
데이터 구분 예제
데이터 획득
빅데이터 수집
데이터 공유(data sharing)
- 데이터 기반 산업 활성화 촉진을 통한 혁신과 가치 창출이 목표
- 국가 및 지자체 공공 데이터 포탈 운영 및 활용 : https://data.go.kr/
- 디지털 뉴딜의 핵심으로 ‘데이터 댐’ 프로젝트 추진
- 빅데이터 플랫폼 및 센터 구축, AI 학습용 데이터 구축 : https://aihub.or.kr/
오픈 API(application programming interface)
- 서비스, 정보, 데이터 등을 어디서나 쉽게 이용할 수 있도록 허용
- 데이터를 제어할 수 있는 간단하고 직관적인 인터페이스 제공
- 웹을 통한 데이터 수집이 가능해 복잡한 환경 구성 필요 없음
- 서비스 제공자의 정책에 따라 제공하는 데이터 범위 결정
데이터 종류
기록 데이터(record data)
- 관계형 기록(relational records)
- 기록의 모임으로 구성된 데이터, 각 객체는 일정한 수의 속성을 지님
- 데이터 행렬(data matrix)
- 각 객체는 일정한 수의 속성으로 구성되며 모두 수치형 데이터
- m x n 행렬로 표현, m: 객체의 수, n: 속성의 수
- 문서 데이터(document data)
- 각 문서에 대해 항(term)은 속성 또는 벡터의 성분(component)
- 각 성분의 값은 문서에 해당 항이 몇 차례 등장했는지 기록
- Term-document matrix(TDM)
- 트랜잭션 데이터(transaction data)
- 각 기록(record, transaction)이 항목(item)들의 집합 포함
- ex)
- 고객이 구해한 상품(product)들의 집합 내역
- Market basket data
그래프 데이터(Graph data)
- 월드 와이드 웹(World Wide Web)
- 웹 페이지 사이의 HTML 링크를 그래프로 표현
- 소셜 네트워크(social networks)
- 사용자 사이의 관계(친구, 팔로워 등)를 그래프로 표현
- ex)
- 페이스북, 인스타그램, 트위터 등
- 구매 내역(purchage histories)
- 상품과 고객 사이의 구매 내역을 그래프로 표현
- ex)
- amazon
- ex)
- 상품과 고객 사이의 구매 내역을 그래프로 표현
순서 데이터(ordinal data)
- 순차 데이터(sequential data)
- 트랜잭션이 시간 순으로 나열됨
- 시계열 데이터(time-series data)
- 시간 간격마다 측정되는 데이터 포인트들의 수열
- 염기서열 데이터(nucleic sequence data)
- 유전자 염기 서열은 A,G,C,T의 수열
- 이동경로 데이터(trajectory data)
- 이동 객체의 위치 및 시간 순서의 수열
데이터 시각화
데이터 탐색
- 데이터 표현, 시각화를 통한 이해 → EDA 과정
데이터의 기초 통계 표현
데이터의 전반적인 경향 측정
- 표(table)
- 데이터를 나열한 구조
- 히트맵(heatmap)
- 표 + 색상을 사용한 시각화
- 평균(mean)
- 데이터셋의 값들의 합을 수로 나눈 값
- 중간값(media)
- 순서가 있는 데이터셋의 중간값, 값의 수가 짝수인 경우 중간의 두 값의 평균
- 구간(interval)에 대한 빈도(frequence)로 데이터가 주어지는 경우, 중간값이 속한 구간에서 보간법(interpolation)을 적용하여 근사 가능
- 최빈값(mode)
- 데이터셋에서 가장 많이 발생한 값
- 최빈값이 하나인 분포는 unimodal, 둘인 경우 bimodal, 복수인 경우 multimodal
- 대칭 및 왜곡된 분포
- 하나의 대푯값들로는 데이터의 특성을 모두 파악하기 어려울 때 사용
- 평균, 중간값, 최빈값을 통한 왜곡된(skewed) 경향 파악
- 확률 분포에 대한 모멘트 활용
데이터의 퍼진 정도 측정
- 분산(variance)
- 데이터의 퍼진 정도에 대한 대푯값
- 모분산(population variance)
-
표본분산(sample variance)
- 표준편차(standard deviation)
- 데이터의 퍼진 정도에 대한 대푯값
- 분산의 제곱근, 즉, S 또는 σ
- 사분위수(quartile)
- 100p 백분위수(percentile): 데이터셋에서 100p 작은 값에 해당하는 값
- Q1(25 백분위수), Q2(50 백분위수), Q3(75 백분위수)
- 사분위수 범위(inter-quartile range) : IQR = Q3 - Q1
- 5가지 요약 수치(five number summary) : 최솟값(min), Q1, 중간값, Q3 최댓값(max)
- 이상치(outlier): [Q1 -1.5 x IQR, Q3 + 1.5 x IQR]
기초 통계를 설명하는 시각 표현
- 박스플롯(box plot)
- 데이터의 min, Q1, median, Q3, max로 표현
- Q1부터 Q3 범위를 구분하는 선으로 표현
- median은 박스를 구분하는 선으로 연결
- min과 max는 박스를 관통하는 선으로 연결
- 이상치: 선을 넘는 값들을 점으로 표현
- ex)
- 데이터 포인트: 21, 23, 24, 25, 29, 33, 49
- Q1 = 24, Q2 = 25, Q3 = 33, IQR = 10
- 이상치:
- [23 - 1.5 x 10, 33 + 1.5 x 10] = [8, 48] 밖의 값 → 49
- 막대 차트(bar chart)
- 데이터의 분포를 파악하기 위해 막대로 값을 비교
- 잘못 해석되지 않도록 표현 방식에 주의
- 범위, 굵기 등을 변경 가능
- 수직적(vertical), 수평적(horizontal) 막대 표현 가능
- 변수가 다중인 경우 한꺼번에 표현 가능
- 누적 막대 차트(stacked bar chart)
- 막대 위에 막대를 쌓아서 강조 가능
- 전체 중 비율을 원형 차트(pie chart)가 아닌 막대로도 표현 가능
- 선 그래프(line graph)
- 데이터 변화의 흐름, 경향 파악
- 여러 그래프를 중첩하거나 범위를 함께 표현 가능
- 기울기 그래프(slope graph)
- 값이 변하는 정도를 비교하여 표현 가능
- 산점도(scatterplot)
- 데이터의 변수 간 관계를 시각화
- 특정 기준값에 대해서 색을 달리하는 형태로 강조 가능
- 상관관계(correlation coefficient)
- Pearson의 상관계수
- -1 ~ 1 사이의 값, 범위에 따라 양/음의 선형 상관관계 표현