반응형 데이터 사이언스/Series와 DataFrame5 reindex()을 이용하여 주가 데이터 수집하기 finance-datareader 패키지를 통해 한국거래소와 글로벌 주식종목 리스트에 대한 데이터를 가져옴 FinanceDataReader 패키지를 fdr로 앨리어싱 fdr의 DataReader로 가격데이터를 가져옴 shape : 배열의 형태를 튜플로 반환함 drop() : 원하는 날짜의 데이터를 드랍함 df1의 인덱스를 기준으로 new_df2을 reindex함수를 이용해서 생성하기 장이 열리지 않은 날은 그 전날 가격데이터와 같으므로 method="ffill"을 사용하기 적합하다. 2022. 7. 4. Index 관련 특징 및 함수 index() : 인덱스를 새롭게 정의함 set_index() : 특정 column을 index로 만듦 reindex() : 새로운 index label을 기반으로 기존의 "index-value" mapping은 유지한채 재배열하는 것 nan값과 어떠한 값을 연산하면 그 결과는 nan이다. 인덱스는 값도 같고 데이터 타입도 같아야 한다. 현재 s2는 문자의 인덱스를 갖고 있지만 정수형의 인덱스로 reindex를 하게되면 숫자 0,1, 2에 맵핑된 값으로 바뀌게 된다. 그런데 숫자 0, 1, 2에 맵핑된 값이 없으므로 nan이 나오게 되는 것이다. 이 문제는 astype함수를 이용해서 해결할 수 있다. 또 다른 방법으로는 s1과 s2에 새롭게 같은 인덱스를 정의하는 것이다. copy() : 똑같은 Seri.. 2022. 7. 4. DataFrame 데이터 타입 numpy의 arange함수를 이용해서 array를 만들 수 있다. DataFrame 데이터 타입은 다수의 Series를 하나의 변수로 관리할 수 있도록 만든 자료형이다. (Series의 dict 형태라고 보면 됨) DataFrame 생성시, Series 간에 Index 기준으로 자동정렬이 된다. 2022. 7. 4. Series 데이터 타입 pandas 패키지는 패키지는 관용적으로 pd로 앨리어싱 pandas의 Series는 키 밸류 형태로 딕셔너리와 유사하다. head함수는 시리즈의 원소를 상위 인덱스부터 보여줌 numpy의 nan은 파이썬의 None과 비슷하다. nan은 len함수에는 포함되지만 count함수에서는 카운트되지 않는다. pandas에는 unique함수로 원소들의 종류를 알 수 있고 여기에는 nan도 포함된다. 2022. 7. 4. 이전 1 2 다음 반응형