Python
-
python upsampling, downsamplingpython/time series 2021. 8. 25. 20:50
time seires data를 분석할 때 불규칙적으로 수집되는 데이터의 특성상 주기가 다소 불규칙적일 때가 많아서 주기를 일정하게 변경해야할 필요성이 있다. 불규칙 적인 time seires data를 주기가 일정하게 변경하는 방법은 upsampling, downsampling 두가지가 있다. python에서는 pandas 라이브러리의 resample 함수를 활용하여 쉽게 upsampling, downsampling 할 수 있다. 언제 다운 샘플링과 업샘플링을 할까? (1) 다운샘플링 : 데이터의 빈도를 줄이는 것 원본 데이터의 시간 단위가 실용적이지 않은 경우 특정 주기에 집중하는 경우 더 낮은 빈도의 데이터에 맞추는 경우 3가지로 나누어 설명했지만, 수집 된 데이터가 우리가 핸들링 하기에 적당하지 ..
-
pandas.fillna() 누락 된 데이터를 채우는 방법python/pandas 2021. 8. 17. 21:03
Time Seires Data에서 누락된 데이터를 해결하는 일반적인 방법은 크게 3가지가 있다. 01. 누락 된 데이터를 해결하는 방법 1. 대치법(imputation) : 사용자가 누락 된 데이터를 관측에 기반하여 입력해서 채워 넣는다. 2. 보간법 (interpolation) : 인접한 데이터를 사용하여 누락된 데이터를 추정한다. 3. 제거 어떤 방법을 사용할지는 데이터에 따라 다르겠지만, 나 같은 경우에는 0이나, mean, 특정 통계량을 활용 할 때에는 대치법을 활용하고, time seires의 경향성이 보이는 경우에는 보간법을 활용하고 데이터가 제거해도 관계없다고 판단 되는 경우에는 제거한다. 02. 누락 된 데이터를 해결하는데 사용하는 함수 위의 3가지 방법을 활용하기 위해서는 pandas에서..
-
[pandas] Multi index에서 single index로, Multi column에서 single column으로 코드 한줄로 변경하기python/pandas 2021. 6. 23. 10:54
In [5]: import numpy as np import pandas as pd 인덱스를 생성하기 위한 array를 생성¶ In [3]: arrays = [ np.array(["bar", "bar", "baz", "baz", "foo", "foo", "qux", "qux"]), np.array(["one", "two", "one", "two", "one", "two", "one", "two"])] arrays를 index로 하는 DataFrame을 생성한다.¶ In [6]: df = pd.DataFrame(np.random.randn(8, 4), index=arrays) In [7]: df Out[7]: 0 1 2 3 bar one -0.855668 1.135211 2.552778 -1.380448 ..
-
[plotly dash] 01. dash로 시각화 하기Visualize 2021. 4. 11. 17:41
회사에서 분석가, 인공지능 개발자로 일하다 보니 데이터를 필요로 하는 사람들에게 어떻게 시각화해서 보여 줄 수 있을까? 라는 고민이 생겼다. matplotlib이나 seaborn과 같이 주간 회의 때 보여주는 것에는 다소 한계가 있었고, 나에게 그때그떄 요청하기는 어렵기 때문에 쉽게 보여 줄수 있는 방법을 계속 고민해 봤다. 대안은 plotly dash 였다. interective한 라이브러리인 plotly를 사용해서 django서버를 통해 시각화 결과를 계속 노출 시키는 것이 목표이다. import dash import dash_html_components as html app = dash.Dash(__name__) app.layout = html.H1('hello dash') if __name__ =..