현재 IT 대세 빅데이터와 인공지능에서 꼭 필요한 공부가 있는데, 그게 바로 통계다. 이 분야에서 통계는 선택이 아닌 필수이자 기본으로 갖추어야 할 기본 능력인 것이다. 그런데 통계 공부가 참 쉽지 않다. 배워야 할 것들이 많다 보니, 학습 분량도 많은 데다, 단순히 계산만 잘한다고 통계를 잘한다고 할 수 없다. 분석 목적에 맞는 올바른 통계 방법을 적용할 줄 아는 다양한 실무 경험도 필요하다. 자칫 잘못하면, 전혀 엉뚱한 결과를 도출할 수 있기 때문이다. 특히 데이터 과학을 하는 사람은 통계학, 정보기술, 적용 분야 등을 아우르는 전문지식이 있어야 한다. 이는 통계학을 연구하는 수학자와는 통계학을 보는 입장이 다른 것이다.
'데이터 과학을 위한 통계'는 바로 그런 차이를 담은 책이다. 데이터 과학자를 대상으로 하는 책으로 통계의 핵심 개념을 전반적으로 총정리 해놓았으며, 데이터 과학의 관점에서 통계학을 다루고 있다.
따라서 책 처음부터 수학으로서 통계보다는 데이터 분석이라는 입장에서 통계의 역사를 보고 있으며, 통계학자와 데이터 과학자들이 쓰는 용어 차이와 개념을 곳곳에서 이야기하고 있고, 심지어 비슷해 보이는 컴퓨터 과학과 정보공학에서의 그래프라는 용어가 어떻게 다르게 쓰이는지도 말하고 있다. 이게 왜 중요하냐 할 수 있지만, 이는 기구 설계 단위로 미터법을 쓸 것이냐 인치법을 쓸 것이냐 하는 것과 같이 가장 기본적인 단위를 맞춰 같은 생각을 공유하는 것과 같은 것이다. 책 곳곳에 CAUTION으로 이런 차이에 주의를 주고 있는데, 비슷한 분야에 같은 단어, 같은 용어인데도, 다른 의미를 가지는 것을 보면, 신기할 정도다. 용어의 혼동을 피하기 위해서 주의 깊게 봐야 할 부분인 것이다.
이런 용어 정리처럼 '데이터 과학을 위한 통계'에는 잘못된 통계 이해에 관한 부분도 말하고 있다. 통계적 유의성에 나오는 p값이 그 예일 수 있다. 심리학 저널 경우 p값 사용을 금지까지 할 정도였다. 통계의 잘못된 이해로 잘못된 논문 결과를 야기한 것이다. 이를 바로잡기 위해 미국통계협회에서 연구자와 저널 편집자를 위해 성명서까지 낼 정도다. 이처럼 책에서는 기존의 통계학 책에서 볼 수 없었던 실무 차원에 도움이 되는 전문적인 내용들이 담겨 있다.
그런데 '데이터 과학을 위한 통계'를 보기 위해서는 기본적으로 R 프로그래밍 언어를 알고 있어야 한다. R에 대한 별다른 설명없이 바로 R 코드를 이용한 각종 예제들이 나오기 때문이다. 어려운 것들은 아니지만, R을 전혀 모를 경우, 책을 온전히 이해하는 데 걸림돌도 될 수 있고, 읽는 재미도 반감할 수 있다.
또 한 가지는 이 책은 통계를 기본부터 가르쳐주는 책이 아니다. '데이터 분석에서 머신러닝까지 50가지 핵심 개념'이라는 부제에 나와 있듯이 이 책은 통계를 기초부터 알려주는 책이라기 보다, 기존에 알고 있는 통계 지식을 전체적으로 정리하고 점검하는 용도의 책이라고 보면 맞다. 통계 용어, 공식, 개념 설명, 적용 사례, 그래프 보는 법, 샘플과 같은 것들이 잘 나와 있지만, 주요 핵심 개념 위주라서 학습서처럼 익히기에는 한계가 있다. 물론 독자의 통계 학습에 도움을 주기 위해, 각 단원마다 '더 읽을 거리'를 두어, 관련된 각종 책과 논문을 언급해 놓고 있다는 점은 이 책이 가진 한계를 보완하기 위한 저자의 꼼꼼한 배려라고 볼 수 있다.
'데이터 과학을 위한 통계'는 화려한 풀컬러로 지루한 수학책의 단조로움을 피하고 있다. 그만큼 코드나 그래프를 보기 편하다. 그리고 각 파트마다 '용어 정리'란이 있어서, 꼭 익히고 점검할 용어를 강조해놨다. 이 부분을 제대로 보지 않으면, 내용 이해가 제대로 안될 수 있으므로 몇 번이고 다시 봐야 할 부분이다. '주요 개념'에서는 각 소단원 내용을 정리하고 있어 다시 한번 핵심 정리하게 하고 있으며, 'TIP', 'NOTE', CAUTION'을 통해 추가 정보나 보강 설명을 하고 있다.
여러 예제와 함께 간결한 설명으로 되어 있는 '데이터 과학을 위한 통계'는 통계를 전체적으로 훑어보기 좋은 책이다. 특히 인공지능, 머신러닝, 빅데이터 등과 관련된 데이터 과학을 공부하거나 그쪽에 일하는 사람들에겐 통계 지식 정리와 함께 바른 통계 적용에 좀 더 실질적인 도움을 주는 책이라 생각한다.