1. 특정 열 조회
- `df.loc[:, [열 이름1, 열 이름2, ...]]` 형태로 조회할 열 이름을 리스트로 지정하여 특정 열을 조회할 수 있습니다.
- `df[[열 이름1, 열 이름2, ...]]` 형태로 인덱서를 생략함이 일반적입니다.
- `df[열 이름1]` : 조회할 열이 하나면 리스트 형태가 아니어도 됩니다.
- 하지만 이 경우에는 결과가 Series로 나오고, DataFrame 형태로 받고 싶다면 리스트로 넣어주면 됩니다.
- `df[[열 이름1]]`
2. 조건에 맞춰 필터링
DataFrame에서 조건을 충족하는 행을 가져올 수 있습니다.
조건식은 `==`, `>`, `<`, `!=` 등의 기호나 산식을 넣을 수 있습니다.
`df[조건]`형태로 조회하면 된다.
# 단일조건 조회
df[df['gender']=='M']
# 복합조건 조회
df[(df['userId']==5) & (df['rating']<=2)]
필터링 결과 중 원하는 정보만 추출하기
필터링 후 특정 컬럼만 조회
- `df[조건]['추출할 컬럼명']`
- `df.loc[조건, ['추출할 컬럼명1', ...]]`
메소드 사용
- `isin(리스트)` : 리스트 안의 값인 데이터만 조회
- `between(값1, 값2)` : 값1 ~ 값2 까지 범위안의 데이터만 조회
# 방법 1) 'genres' 만 출력
df[(df['userId']==5) & (df['rating']<=2)]['genres']
# 방법 2) 조건에 맞는 여러 열 조회
data.loc[data['MonthlyIncome'] >= 10000, ['Age', 'MaritalStatus', 'TotalWorkingYears']]
# isin()
data.loc[data['JobSatisfaction'].isin([1, 3, 4])]
# between()
data.loc[data['Age'].between(25, 30)]
3. 컬럼명 변경하기
3-1) 전체 컬럼명 변경하기
`df.columns = [새로운 컬럼명들]`
- 전체 컬럼명을 변경하는 것입니다.
- 하나라도 누락되면 오류 발생합니다.
3-2) 선택하여 컬럼명 변경하기
`df.rename(columns={'기존 컬럼명' : '새 컬럼명'})`
- rename 함수의 columns 옵션을 통해 원하는 컬럼의 컬럼명만 변경할 수 있습니다.
- columns는 dictionary 형태로 기존 컬럼명과 새 컬럼명으로 맞대응하여 대체할 수 있습니다.
4. 새로운 컬럼 생성
`df['새 컬럼명'] = 값` 형태로 새로운 컬럼을 생성할 수 있습니다.
5. 컬럼 삭제
5-1) 특정 컬럼만 삭제
`df.drop(columns=['컬럼 명1', '컬럼 명2', ...])`
5-2) 필요한 컬럼만 원하는 순서대로 저장
원하는 컬럼만을 리스트로 지정하여 조회하는 식으로 컬럼을 삭제하는 효과를 낼 수 있습니다.
# df의 필요한 컬럼을 원하는 순서대로 리스트화
new_columns = ['movieId', 'imdbId', 'tmdbId', '영화제목', 'year', 'genres']
# df에서 new_columns 리스트의 컬럼들만 뽑아서 다시 저장
df = df[new_columns]
'IT' 카테고리의 다른 글
[가상면접 사례로 배우는 대규모 시스템 설계 기초] 1장. 사용자 수에 따른 규모 확장성 (0) | 2024.05.16 |
---|---|
[Pandas] 4. 결측치 처리 (0) | 2024.03.27 |
[Pandas] 2. DataFrame 결합과 정렬 (0) | 2024.03.27 |
[Pandas] 1. 데이터 탐색 (0) | 2024.03.27 |
[Ubuntu] 우분투 Root 계정 비밀번호 설정 (0) | 2024.02.21 |