Dataanalysis2
DataAnalysis2
2. 데이터 전처리 - 2
-
슬라이싱을 통한 행 선택
- 데이터 프레임에서 몇 개의 행을 가져오고자 할 때 몇 가지의 방법이 있다.
- 처음 5행만 얻으려면 head(), 마지막 5행만 얻으려면 tail()을 사용한다.
-
새로운 열 생성
-
데이터 분석 함수
- describe()
- count()
- mean()
-
데이터 그룹핑
- groupby() : groupby() 함수에 그룹을 묶을 때에 사용될 열의 레이블을 인자로 전달하면, 해당 열에 있는 데이터가 동일하면 하나의 그룹으로 묶인다.
-
데이터 필터링
-
데이터 결손값 처리
- isna() : 데이터에 결손값이 있는지 확인한다.
- dropna() : 빠진 값 찾고 삭제하기
- fillna() : 빠진 값을 새로운 값으로 채우기
-
데이터 구조 변경
- 딕셔너리 데이터를 이용하여 데이터프레임을 생성할 수 있다. 이때 키는 열의 레이블이 되고, 딕셔너리의 키에 딸린 값은 열은 채우는 데이터를 가진 리스트가 된다.
- pivot()
- concat() : 데이터 합치기
-
데이터 정렬
- sort_values()
3. 데이터 시각화
-
데이터 시각화
- 데이터 시각화는 점이나 선, 막대 그래프 등의 시각적 이미지를 사용하여 데이터를 화면에 표시하는 기술.
- 효과적인 시각화는 사용자가 데이터를 분석하고 추론하는데 도움이 된다.
-
Matplotlib
- 가장 널리 사용되는 시각화 도구 패키지
- pyplot 모듈을 불러와서 plt라는 별칭으로 지정
- title
- xlabel, ylabel
- 하나의 차트에 여러 개의 데이터를 그릴 수 있다.
-
차트 장식
-
막대형 차트
-
산포도 차트
-
파이 차트
-
히스토그램
-
상자 차트
-
한 화면에 여러 그래프 그리기
- subplots()
- subplots()