본문 바로가기
반응형

전체 글264

EDA(탐색적 데이터 분석) read_csv() : csv파일을 읽는 함수 EDA : 데이터 집합을 분석하여 주요 특성을 요약하는 접근 방식으로, 종종 시각적 방법을 사용함 EDA의 구성요소 : 메타데이터(데이터에 관한 데이터) : 데이터 크기, 컬럼명, 데이터 타입, 비어 있는 데이터 등 Univariate descriptive statistics: 개별 변수(columns)에 대한 요약 통계량 먼저 메타데이터에 대해 알아보자 shape : 데이터의 크기를 보여줌(첫 번째 값 row, 두 번째 값 col) dtypes.value_counts() : dataframe에서 각 columns들의 데이터타입의 갯수 info() : 데이터에 대한 정보를 나타냄 df['ticker'].dtype : ticker라는 Series에 대한 데이터.. 2022. 7. 4.
reindex()을 이용하여 주가 데이터 수집하기 finance-datareader 패키지를 통해 한국거래소와 글로벌 주식종목 리스트에 대한 데이터를 가져옴 FinanceDataReader 패키지를 fdr로 앨리어싱 fdr의 DataReader로 가격데이터를 가져옴 shape : 배열의 형태를 튜플로 반환함 drop() : 원하는 날짜의 데이터를 드랍함 df1의 인덱스를 기준으로 new_df2을 reindex함수를 이용해서 생성하기 장이 열리지 않은 날은 그 전날 가격데이터와 같으므로 method="ffill"을 사용하기 적합하다. 2022. 7. 4.
Index 관련 특징 및 함수 index() : 인덱스를 새롭게 정의함 set_index() : 특정 column을 index로 만듦 reindex() : 새로운 index label을 기반으로 기존의 "index-value" mapping은 유지한채 재배열하는 것 nan값과 어떠한 값을 연산하면 그 결과는 nan이다. 인덱스는 값도 같고 데이터 타입도 같아야 한다. 현재 s2는 문자의 인덱스를 갖고 있지만 정수형의 인덱스로 reindex를 하게되면 숫자 0,1, 2에 맵핑된 값으로 바뀌게 된다. 그런데 숫자 0, 1, 2에 맵핑된 값이 없으므로 nan이 나오게 되는 것이다. 이 문제는 astype함수를 이용해서 해결할 수 있다. 또 다른 방법으로는 s1과 s2에 새롭게 같은 인덱스를 정의하는 것이다. copy() : 똑같은 Seri.. 2022. 7. 4.
DataFrame 데이터 타입 numpy의 arange함수를 이용해서 array를 만들 수 있다. DataFrame 데이터 타입은 다수의 Series를 하나의 변수로 관리할 수 있도록 만든 자료형이다. (Series의 dict 형태라고 보면 됨) DataFrame 생성시, Series 간에 Index 기준으로 자동정렬이 된다. 2022. 7. 4.
반응형