Book
[도서리뷰] 데이터과학자의 사고법_김용대
jin0choi1216
2021. 5. 8. 14:48
데이터를 다루는일을 업으로 삼다 보면 종종 생각의 폭에 한계에 도달한다.
다루는 모델의 알고리즘이나, 통계적 접근방식, 해석 방법 등
폭 넓은 사고를 위해 항상 고민한다.
'알라딘에서 읽을 만할 책은 없을까...'
하고 고민 하던 중 "데이터과학자의 사고법"
이라는 제목의 책이 끌려 읽게 되었다.
책은 총 3부으로 이루어져 있으며
책 내용만 볼때에는 통계 전문가 이신 듯하다.
1부에는 주로 통계적 해석 방법이라던지,
통계적 해석에서 발생할 수 있는 오류들을 표현하여
개인적으로 도움이 많이 되었고, 재미있게 읽혔다.
하지만 2부 책의 목적은 사례 위주로 소개 하여
사고의 폭을 확장하기 위함인듯 한데
이미 알고 있는 내용들이 많았고
1부 내용을 중점적으로 확장 되었으면 하는 바램이 있었다.
그리고 3부 또한 인공지능에 대해서 다루고 있는데,
이부분도 소개정도라서 거의 생략했다.
1부에서 소개 되었던
거짓말 탐지기가 믿을 수 없는 이유가 정말 흥미로웠고,
미쳐 생각하지 못했던 부분이였다.
데이터 전처리를 하면서 이상치(outlier)제거의 필요성,
중심극한정리, 정규분포를 좀 더 깊게 공부하고 싶은 생각도 들었다.
데이터 과학자, 인공지능을 다루다 보면,
통계, 수학, 컴퓨터공학, 인공지능 이론 등 다양한 분야의 공부가 필수적 인데,
이중에 통계적 사고의 폭을 확실히 길러 줄 만한 책이다.
정형데이터를 다룬다면 1부는 정말 도움이 많이 돼고
재밌게 읽힐꺼라 예상한다.
더 공부해볼만한 주제
- 정규분포
- 평균으로의 회귀
- 중심극한 정리
- 이상치가 심한 데이터 핸들링
- 포획-재포획 표본 조사 방법
- 표본
밑줄 메모
- 97%의 정확도를 가진 거짓말 탐지기는 거짓말 쟁이를 거짓말 쟁이가 아니라고 판단할 확률과, 거짓말 쟁이가 아닌 사람을 거짓말 쟁이라고 판단할 확률도 함께 가지고 있다는 것을 생각해야한다.
- 정규분포를 따르지 않는 데이터는 문제가 있다.
- 이상치가 있으면 평균은 전혀 도움이 되지 않는다.
- 데이터 과학은 사회적 이슈도 함께 고려해야한다.
- 데이터 익명화는 완벽할 수 없다.
- 데이터를 통해 인과관계를 파악하는 것은 어렵고 대부분은 상관관계이다.
- 아버지의 키가 평균보다 클 경우 아들의 키는 평균보다 작을 확률이 높다. 전체 남자키는 결국 정규분포이며 평균에 회귀한다.
- 표본은 무작위로 뽑아야 하며 공정해야한다.
- 확률이 아무리 낮아도, 많이 시도 하면 결국 원하는 결과가 나온다. 두 사람의 생일이 같은 확률은 낮지만 한반안에 같은 생일이 확률은 높다.