python/pandas
-
pandas.fillna() 누락 된 데이터를 채우는 방법python/pandas 2021. 8. 17. 21:03
Time Seires Data에서 누락된 데이터를 해결하는 일반적인 방법은 크게 3가지가 있다. 01. 누락 된 데이터를 해결하는 방법 1. 대치법(imputation) : 사용자가 누락 된 데이터를 관측에 기반하여 입력해서 채워 넣는다. 2. 보간법 (interpolation) : 인접한 데이터를 사용하여 누락된 데이터를 추정한다. 3. 제거 어떤 방법을 사용할지는 데이터에 따라 다르겠지만, 나 같은 경우에는 0이나, mean, 특정 통계량을 활용 할 때에는 대치법을 활용하고, time seires의 경향성이 보이는 경우에는 보간법을 활용하고 데이터가 제거해도 관계없다고 판단 되는 경우에는 제거한다. 02. 누락 된 데이터를 해결하는데 사용하는 함수 위의 3가지 방법을 활용하기 위해서는 pandas에서..
-
[pandas] Multi index에서 single index로, Multi column에서 single column으로 코드 한줄로 변경하기python/pandas 2021. 6. 23. 10:54
In [5]: import numpy as np import pandas as pd 인덱스를 생성하기 위한 array를 생성¶ In [3]: arrays = [ np.array(["bar", "bar", "baz", "baz", "foo", "foo", "qux", "qux"]), np.array(["one", "two", "one", "two", "one", "two", "one", "two"])] arrays를 index로 하는 DataFrame을 생성한다.¶ In [6]: df = pd.DataFrame(np.random.randn(8, 4), index=arrays) In [7]: df Out[7]: 0 1 2 3 bar one -0.855668 1.135211 2.552778 -1.380448 ..