Pandas에서 DataFrame을 탐색하는 방법에 대해서 알아보자
[참고] 주요 메서드
- `head(n)` : 상위 데이터 확인
- `tail(n)` : 하위 데이터 확인
- `shape` : 데이터프레임 크기
- `index` : 인덱스 정보 확인
- `values` : 값 정보 확인
- `columns` : 열 정보 확인
- `dtypes` : 열 자료형 확인
- `info()` : 열에 대한 상세한 정보 확인
- `describe()` : 기초통계정보 확인
0) 데이터 불러오기
csv 파일로 불러오기 : `pd.read_csv({file_path})`
import pandas as pd
df = pd.read_csv("data.csv")
1) 데이터 확인하기
상위, 하위 일부 데이터 확인
- `df.head(n)`, `df.tail(n)` 메소드를 사용하여 앞, 뒤 n개의 데이터를 확인
- 개수를 지정하지 않으면 5개의 행 조회 (default=5)
2) DataFrame 정보 확인
DataFrame 크기 확인
- `df.shape` 메서드로 (rows, cols) 값의 튜플 형태로 확인 가능
- 데이터의 양을 확인하는 목적
df.shape
>>> (10000, 4)
열 정보 확인
- `df.columns` : 열 확인
- `df.columns.values` : np array 형태로 확인
- `list(df)` : 열 이름을 리스트로 반환
df.columns
>>> Index(['userId', 'movieId', 'rating', 'timestamp'], dtype='object')
df.columns.values
>>> array(['userId', 'movieId', 'rating', 'timestamp'], dtype=object)
list(df)
>>> ['userId', 'movieId', 'rating', 'timestamp']
자료형 확인
- `df.dtypes` : 자료형 확인
- `df.info()` : 컬럼 수, 데이터 타입 등 데이터 프레임의 정보 파악
df.dtypes
>>>
userId int64
movieId int64
rating float64
timestamp object
dtype: object
df.info()
>>>
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100836 entries, 0 to 100835
Data columns (total 4 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 userId 100836 non-null int64
1 movieId 100836 non-null int64
2 rating 100836 non-null float64
3 timestamp 100836 non-null object
dtypes: float64(1), int64(2), object(1)
memory usage: 3.1+ MB
기초통계정보 확인
- `df.describe()` : 수치형 데이터에 대한 통계적 특성 확인
- `df[['userId', 'rating']].describe()` : 일부 열에 대해서만 기초통계정보 확인 가능
3) ydata_profiling 활용하기
패키지 설치 : `pip install ydata-profiling`
from ydata_profiling import ProfileReport
report = ProfileReport(df)
# report 실행하여 확인하기
report
# 레포트 파일로 저장하기
report.to_file('report.html')
'IT' 카테고리의 다른 글
[Pandas] 3. DataFrame 조회(필터링), 변경 (0) | 2024.03.27 |
---|---|
[Pandas] 2. DataFrame 결합과 정렬 (0) | 2024.03.27 |
[Ubuntu] 우분투 Root 계정 비밀번호 설정 (0) | 2024.02.21 |
[Docker] 컨테이너 사용 방법. docker 명령어 (0) | 2024.02.20 |
[Docker] 도커 컨테이너 만들기 (0) | 2024.02.19 |