Python/Data Science

Data Science | numpy, pandas

냥냥냥냥냥냥 2025. 2. 5. 09:27

사내 데이터 싸이언스 시험을 위해 정리하기 위한 용도로 남겨 둡니다

다른 분들께도 유용할 수 있다면 좋겠네요 

 

주피터 노트북을 설치하고 로컬로 사용을 하셔도 되지만 저의 개발 환경은 코랩을 사용하고 있습니다

https://colab.research.google.com/

 

Google Colab

 

colab.research.google.com

 

Python 라이브러리 중 데이터 분석을 유용하게 하기 위한 라이브러리로 numpy, pandas 가 있습니다

numpy


numpy는 아래처럼 import를 합니다 

(as np는 안써도 상관 없는데 이렇게들 많이 쓰더라구요)

numpy로는 array만 사용해보긴 했습니다

아래처럼 1차원 배열을 만들 수 있습니다

2차원 배열 뿐만 아니라 그 이상의 차원의 배열도 만들 수 있습니다

array 첫 대괄호 [ 의 개수가 몇 개인지 보면 몇 차원 배열인 지 알 수 있습니다

 

 

학창 시절 배웠던 통계를 기억해보면,  

"합(sum), 최대값(max), 최소값(min), 평균(mean), 분산(var), 표준편차(std)" 등등을 확인을 했던 거 같네요

1차원 배열 1 , 2, 3이 들어 있는 array에서 쭈욱 한 번 구해봤습니다


pandas


pandas는 아래와 같이 import 합니다

pandas에도 array가 존재하지만 여기선 좀 더 이쁜 Series 라는 애가 있습니다

 

 

Series


series는 1차원 배열과 같은 자료 구조입니다

array를 출력했을 때와 달리 레이블로 이쁘게 보여집니다

Series 출력 시 Array 출력시


 

numpy의 array에서 구해본 것 처럼 여기서도 통계에서 기초적으로 쓰이는 값들을 구해봤습니다

DataFrame


dataFrame은 2차원 배열과 같은 자료 구조입니다

사실 dataFrame을 많이 사용 합니다