이번달에는 파이썬 데이터 분석책을 읽었습니다.
대규모 데이터 분석에 대한 책이라고 해서 기대를 많이 하였습니다.
대스크 이전의 대규모 데이터는 어떻게 분석했는지 몰라서, 대스크와 비교할 수는 없지만, 대스크를 보고 느낀 점은 뭐! 쉽네. ^^
대규모, 분산이 주는 느낌이 거대하고 복잡하다는 느낌이잖아요. 책을 읽기 전에는 좀 어려울 것이라는 생각이었는데, 대스크 라이브러리가 쉬운 것인지, 책을 쉽게 쓴 것인지 잘 모르겠네요.
위 이미지처럼 이론적이 부분이 많아요. 그래서 데이터 전처리부터 머신러닝까지 데이터 분석의 처음부터 끝까지를 복습한 느낌입니다. 여기서 복습한 느낌이란 기존 판다스, 시본, 사이키런을 좀 사용해본 사용한 입장에서 말하는 것입니다.
그래서 오늘 처음 대스크와 대규모 데이터 분석에 대해서 배우고자 이 책을 읽는다면 다소 어려울 수도 있습니다.
판다스의 개념이랑 간단한 사용법조차 안 나오니까요. 이 책을 읽기 전에 판다스와 사이키런 (머신러닝) 책을 먼저 읽어보시기를 추천드립니다. 다른 책 읽고 이 책 읽으면 복습 느낌이 확실이 납니다.
그래서 전체적인 책 내용에 대해서는 별로 평할 것이 없어요. 저 개인적으로는 분산 처리에 대한 개념을 이번 기회에 좀 더 숙지했다는 정도입니다. 또한 이렇게 쉽게 이미지로 설명한 부분은 좋았어요.
그리고 ~ 가 부정연산자이었네요. 전에 검색해보다가 지쳐서 포기했는데, ㅎㅎㅎ 이런 것이 여러 책을 읽는 묘미인 것 같아요. 내가 잘 모르는 부분을 언제 어느 책에서 읽을 줄 모르니까요.
소스코드 설명도 한줄 한줄 간략하게 설명합니다. 아는 입장에서 쉽게 쉽게 넘어가지만, 모르는 분들은 따로 공부하셔야 해요.
마지막으로 제공한 소스코드 문제입니다. 이렇게 잘 나가다가, 5장 중간부터 소스코드가 에러납니다. 실습 코드가 연속적이라서 중간에 에러나면, 뒤쪽은 실행할 수가 없습니다. 그래서중간부터 실습없이 눈으로만 읽었어요.그래서 좀 짜증났습니다. 깃허브 코드 올린지 5개월이 지났던데, 그동안 무슨 변화가 있었는지.. 각 장별로 최소한 파케이 파일을 제공하였으면 좋겠다는 생각을 합니다.
그리고 책에서 소개한 라이브러리도 제 아나콘다에서는 설치가 안되네요. ㅠㅠ
마지막으로, 누가 읽으면 좋을까요? 판단스, 사이키런 정도로 데이터 분석 좀 했는데, 데이터 규모가 갑자기 커질때, 분산을 쪼매 공부해서, 현업에 바로 사용하고 싶으면 분은 대스크 공부해보세요. 별로 공부할 것이 없어요. 그 느낌 그대로 대스크가 알아서 해줍니다. ^^
이 서평은 교재를 제공받아 작성되었으며, Yes24, 한빛 홈 사이트에도 같이 등록됩니다.