사내 데이터 싸이언스 시험을 위해 정리하기 위한 용도로 남겨 둡니다
다른 분들께도 유용할 수 있다면 좋겠네요
주피터 노트북을 설치하고 로컬로 사용을 하셔도 되지만 저의 개발 환경은 코랩을 사용하고 있습니다
https://colab.research.google.com/
Google Colab
colab.research.google.com
Python 라이브러리 중 데이터 분석을 유용하게 하기 위한 라이브러리로 numpy, pandas 가 있습니다
numpy
numpy는 아래처럼 import를 합니다
(as np는 안써도 상관 없는데 이렇게들 많이 쓰더라구요)
numpy로는 array만 사용해보긴 했습니다
아래처럼 1차원 배열을 만들 수 있습니다
2차원 배열 뿐만 아니라 그 이상의 차원의 배열도 만들 수 있습니다
array 첫 대괄호 [ 의 개수가 몇 개인지 보면 몇 차원 배열인 지 알 수 있습니다
학창 시절 배웠던 통계를 기억해보면,
"합(sum), 최대값(max), 최소값(min), 평균(mean), 분산(var), 표준편차(std)" 등등을 확인을 했던 거 같네요
1차원 배열 1 , 2, 3이 들어 있는 array에서 쭈욱 한 번 구해봤습니다
pandas
pandas는 아래와 같이 import 합니다
pandas에도 array가 존재하지만 여기선 좀 더 이쁜 Series 라는 애가 있습니다
Series
series는 1차원 배열과 같은 자료 구조입니다
array를 출력했을 때와 달리 레이블로 이쁘게 보여집니다
Series 출력 시 | Array 출력시 |
![]() |
![]() |
numpy의 array에서 구해본 것 처럼 여기서도 통계에서 기초적으로 쓰이는 값들을 구해봤습니다
DataFrame
dataFrame은 2차원 배열과 같은 자료 구조입니다
사실 dataFrame을 많이 사용 합니다