학습 내용
- 주피터 노트북(Jupyter notebook)에 데이터 불러오기, 로드하기
- shape를 통해 로드한 데이터의 행과 열의 개수 출력하기
- head()와 tail()로 파일 미리보기
1. 주피터 노트북에 Python 파일 생성하기
- 먼저 주피터 노트북을 실행하고, 새로운 Python 파일을 만들어 줍니다.
- 주피터 노트북을 설치하고 실행하는 방법은 전 글에 작성해뒀으니 참고해 주시기 바랍니다.
- 오른쪽 상단에 위치한 New 버튼을 누르고 Python 3을 클릭하면 새로운 Python 파일을 생성할 수 있습니다.
2. Pandas 호출하기
Pandas란? : Python 라이브러리 중 하나로, 데이터를 분석할 때 유용하게 쓰입니다.
- 데이터를 불러오는 것에서 그치지 않고,
불러온 데이터를 요약하고 전처리하고 분석할 것이기 때문에 Pandas라는 라이브러리를 불러옵니다.
- 다음과 같이 입력해줍니다. pandas라는 라이브러리를 import(호출)하는데, 앞으로 pd라고 부르겠다는 뜻입니다.
3. 데이터 파일 로드하기
- 미리 다운로드 받은 데이터 파일(csv, excel, spss..)을 /data 라는 폴더를 만들어 그 안에 넣어주었습니다.
- 따로 폴더를 만들어주지 않고 지금 작성하고 있는 파이썬 파일과 데이터 파일이 같은 상위 폴더안에 존재해도 됩니다.
- 저는 df_last 라는 변수에 데이터 파일("주택주택도시보증공사_전국 평균 분양가격(2019년 12월).csv")을 다운로드 받아 로드했습니다.
- 이 때, 인코딩을 설정 해주어야 한글이 깨지지 않고 로드됩니다. encoding="cp949"를 추가해줍니다.
- 저장할 변수 이름 = pd.read_파일확장자("파일이름", encoding="cp949")
- shape를 이용해서 로드한 데이터의 행과 열의 개수를 출력할 수 있습니다.
- 위의 사진에서는 4335가 행의 개수, 5가 열의 개수입니다.
- 로드한 파일을 저장한 변수 이름.shape
- shape의 결과가 출력되면 정상적으로 파일이 로드된 것을 확인할 수 있습니다.
4. head()와 tail()로 데이터 파일 미리보기
- 변수.head() : 파일 미리보기 (앞에서부터 5개)
- 변수.tail() : 파일 미리보기 (뒤에서부터 5개)
- 잘 출력되는 것을 확인할 수 있습니다.
* 박조은 선생님의 인프런 강의, "공공데이터로 파이썬 데이터 분석 시작하기"를 바탕으로 작성했습니다.
'Data Analysis > Jupyter notebook' 카테고리의 다른 글
아나콘다/주피터 노트북(Anaconda/Jupyter notebook) 개발 환경 구축하기 설치 및 실행 for 데이터 분석 (0) | 2021.04.28 |
---|