python pandas - 판다스 기본(시리즈, 데이터프레임)
본문 바로가기
파이썬(Python)/파이썬 기초

python pandas - 판다스 기본(시리즈, 데이터프레임)

by Squat Lee 2021. 5. 25.

파이썬에서 판다스를 이용하면 활용할 곳이 많이 있습니다.

 

특히나 데이터분석에 특화되어 있으니, 데이터사이언스 분야에 관심을 가지고 있으시면 배우면 좋을 것 같습니다.

 

저는 개인적으로 기업의 재무데이터를 분석하기 위해서 공부하고 있는데, 머리가 나빠서 계속 잊어버리네요.

 

그래서 기록을 남기려고 합니다.(10min pandas를 참고하였습니다.)

 

 우선 판다스는 파이참이나 주피터노트북 둘다 사용이 가능한데, 하나씩 하면서 확인해 보기에는 주피터노트북이 더 좋더라구요.

 

pandas, numpy 라이브러리를 불러옵니다. 넘파이는 Array(배열)을 만들고, 여러 계산 기능때문에 사용하는 것 같아요.(아직 정확히 잘 모릅니다.)

 

우선 시리즈를 만들어 보겠습니다.

 

시리즈는 데이터가 한 줄인 것을 말합니다.

결과는 이렇게 한줄로 나옵니다. 앞에 0~5까지는 인덱스 번호를 뜻하며, 1.0~8.0 까지 시리즈 데이터입니다. 'float64'는 데이터 타입이 실수를 의미합니다.

 

이제 데이터프레임을 만들어 보겠습니다.

판다스에서 date_range 함수를 쓰면 자동으로 날짜가 만들어 집니다. period는 날짜가 만들어질 기간입니다.

결과는 위와 같이 나왔습니다.

 

데이터프레임 변수는 보통 'df'라고 정하더라구요. DataFrame 함수를 써서 데이터프레임을 만들면 됩니다.

 

넘파이의 random.randn 함수를 써서 평균0, 표준편차1의 가우시안 표준정규분포 난수 6행 4열의 숫자를 무작위로 만듭니다.(저도 무신말인지 잘 모르겠어요... 그냥 난수 6행 4열의 숫자를 무작위로 만든다고만 이해 했습니다.)

 

index는 위에서 만든 dates의 6개 날짜 데이터를 넣습니다.

 

열이 4개니깐 columns에 'ABCD'를 리스트로 만들어서 넣습니다.

 

이렇게 시리즈가 여러개 합쳐진 테이블 형태의 데이터가 데이터프레임입니다.

 

 

728x90
반응형

댓글