본문 바로가기
데이터 사이언스/Pandas API

EDA(탐색적 데이터 분석)

by Engineer-Lee 2022. 7. 4.
반응형

read_csv() : csv파일을 읽는 함수

 

 

EDA : 데이터 집합을 분석하여 주요 특성을 요약하는 접근 방식으로, 종종 시각적 방법을 사용함

EDA의 구성요소 : 

  • 메타데이터(데이터에 관한 데이터) : 데이터 크기, 컬럼명, 데이터 타입, 비어 있는 데이터 등
  • Univariate descriptive statistics: 개별 변수(columns)에 대한 요약 통계량

 

먼저 메타데이터에 대해 알아보자

shape : 데이터의 크기를 보여줌(첫 번째 값 row, 두 번째 값 col)

dtypes.value_counts() : dataframe에서 각 columns들의 데이터타입의 갯수

 

 

info() : 데이터에 대한 정보를 나타냄

df['ticker'].dtype : ticker라는 Series에 대한 데이터 타입 (dtype('0')은 파이썬 오브젝트를 의미한다.)

 

 

rename() : columns을 재정의하여 새로운 dataframe을 만든다.

반응형

'데이터 사이언스 > Pandas API' 카테고리의 다른 글

describe()  (0) 2022.07.04