본문 바로가기
인공지능/머신러닝

3. 머신러닝을 위한 판다스(Pandas)

by 으노으뇨 2023. 9. 5.
728x90
반응형
SMALL
판다스 개요
목적 데이터 처리를 위한 라이브러리
설치 pip install pandas

cmd에서 설치
라이브러리 호출 import pandas
판다스의 데이터 타입
  선언방법 특징
시리즈(Series) pandas.Series([Values], index= ... ) 1차원 배열의 값(Values)의 형태
각 값에 대응되는 인덱스가 자동으로 부여
인덱스 : 0부터 시작
각 값에 대응되는 인덱스 사용자 설정 가능
데이터 프레임
(DataFrame)
pandas.DataFrame([values], index = ... , columns = ... ) 2차원의 행과 열을 테이블 형태
매개변수 : 2차원의 리스트
리스트, 딕셔너리, 시리즈, 넘파이 등 다양한 형태를 통하여 데이터 프레임 생성 가능
각 값에 대응되는 인덱스가 자동으로 부여
인덱스 : 0부터 시작
각 값에 대응되는 인덱스 사용자 설정 가능
열 이름 사용자 설정 가능

예시

Series 1차원의 다양한 데이터 입력 가능 import pandas as pd
a=pd.Series([1,2,3,4,5,6,7,8,9,10])
print(a)
import pandas as pd
import numpy as np
a=np.arange(10)
a=pd.Series(a)
print(a)
import pandas as pd
import numpy as np
a=pd.Series([100,99,100], index=['one','two','three'])
print(a)
DataFrame 2차원의 다양한 데이터 입력 가능 import pandas as pd
import numpy as np
a=pd.DataFrame (np.random.rand(2,2))
print(a)
딕셔너리로 생성 시 : 딕셔너리 하나의 키와 value는 하나의 열에 대한 제목과 값을 나타냄 import pandas as pd
import numpy as np
tmp={'name':['kim','lee','jung'], 'score':[100,99,100]}
b=pd.DataFrame(tmp)
print(b)
행 이름 : index로 표시, 열 이름 : columns 로 표시 import pandas as pd
import numpy as np
a=pd.DataFrame (np.random.rand(3,3), columns=['dept_A','dept_B','dept_C'], index=['sub_A','sub_B','sub_C'])
print(a)
판다스 문법

유용한 함수

데이터프레임이름.head(n=*) 앞에서 *개 데이터 출력. defaul는 5
데이터프레임이름.tail(n=*) 뒤에서 *개 데이터 출력. default는 5
데이터프레임이름.describe() 데이터프레임의 간단한 통계정보
데이터프레임.T 해당 데이터프레임의 행과 열을 바꿈
데이터프레임.sort_index(axis=0 or 1, ascending=True or False) 열 또는 행의 index를 기준으로 정렬
• 행과 열의 이름으로 데이터를 정렬함
• axis=0 : 인덱스(행) 이름을 기준으로 정렬
• axis=1 : 컬럼(열) 이름을 기준으로 정렬
• ascending=True : 오름차순으로 정렬
• ascending=False : 내림차순으로 정렬

슬라이싱 , 검색

데이터프레임이름[‘열이름‘] Series 형태로 선택됨
데이터프레임이름[[‘열이름‘, ‘열이름’,,,,,]] 데이터프레임 형태로 선택됨

데이터 값 변경

열단위 값을 단일값으로 변경 데이터프레임이름[‘열이름’]= 변경값
열단위 값을 여러 개의 값으로 변경 데이터프레임이름[‘열이름’]= [변경값 리스트]
열 삽입 데이터프레임이름[‘열이름’]= 입력될 값
열 삭제 del 데이터프레임이름[‘열이름’]
열을 삽입하고, 해당 열의 특정 행 값을 삽입 데이터프레임이름[‘열이름’]= pd.Series([value], index=[특정 행])
728x90
반응형
LIST

댓글