데이터 과학을 위한 통계

nado***l2020-09-27

현재 IT 대세 빅데이터와 인공지능에서 꼭 필요한 공부가 있는데, 그게 바로 통계다. 이 분야에서 통계는 선택이 아닌 필수이자 기본으로 갖추어야 할 기본 능력인 것이다. 그런데 통계 공부가 참 쉽지 않다. 배워야 할 것들이 많다 보니, 학습 분량도 많은 데다, 단순히 계산만 잘한다고 통계를 잘한다고 할 수 없다. 분석 목적에 맞는 올바른 통계 방법을 적용할 줄 아는 다양한 실무 경험도 필요하다. 자칫 잘못하면, 전혀 엉뚱한 결과를 도출할 수 있기 때문이다. 특히 데이터 과학을 하는 사람은 통계학, 정보기술, 적용 분야 등을 아우르는 전문지식이 있어야 한다. 이는 통계학을 연구하는 수학자와는 통계학을 보는 입장이 다른 것이다.

'데이터 과학을 위한 통계'는 바로 그런 차이를 담은 책이다. 데이터 과학자를 대상으로 하는 책으로 통계의 핵심 개념을 전반적으로 총정리 해놓았으며, 데이터 과학의 관점에서 통계학을 다루고 있다.

따라서 책 처음부터 수학으로서 통계보다는 데이터 분석이라는 입장에서 통계의 역사를 보고 있으며, 통계학자와 데이터 과학자들이 쓰는 용어 차이와 개념을 곳곳에서 이야기하고 있고, 심지어 비슷해 보이는 컴퓨터 과학과 정보공학에서의 그래프라는 용어가 어떻게 다르게 쓰이는지도 말하고 있다. 이게 왜 중요하냐 할 수 있지만, 이는 기구 설계 단위로 미터법을 쓸 것이냐 인치법을 쓸 것이냐 하는 것과 같이 가장 기본적인 단위를 맞춰 같은 생각을 공유하는 것과 같은 것이다. 책 곳곳에 CAUTION으로 이런 차이에 주의를 주고 있는데, 비슷한 분야에 같은 단어, 같은 용어인데도, 다른 의미를 가지는 것을 보면, 신기할 정도다. 용어의 혼동을 피하기 위해서 주의 깊게 봐야 할 부분인 것이다.

이런 용어 정리처럼 '데이터 과학을 위한 통계'에는 잘못된 통계 이해에 관한 부분도 말하고 있다. 통계적 유의성에 나오는 p값이 그 예일 수 있다. 심리학 저널 경우 p값 사용을 금지까지 할 정도였다. 통계의 잘못된 이해로 잘못된 논문 결과를 야기한 것이다. 이를 바로잡기 위해 미국통계협회에서 연구자와 저널 편집자를 위해 성명서까지 낼 정도다. 이처럼 책에서는 기존의 통계학 책에서 볼 수 없었던 실무 차원에 도움이 되는 전문적인 내용들이 담겨 있다.

그런데 '데이터 과학을 위한 통계'를 보기 위해서는 기본적으로 R 프로그래밍 언어를 알고 있어야 한다. R에 대한 별다른 설명없이 바로 R 코드를 이용한 각종 예제들이 나오기 때문이다. 어려운 것들은 아니지만, R을 전혀 모를 경우, 책을 온전히 이해하는 데 걸림돌도 될 수 있고, 읽는 재미도 반감할 수 있다.

또 한 가지는 이 책은 통계를 기본부터 가르쳐주는 책이 아니다. '데이터 분석에서 머신러닝까지 50가지 핵심 개념'이라는 부제에 나와 있듯이 이 책은 통계를 기초부터 알려주는 책이라기 보다, 기존에 알고 있는 통계 지식을 전체적으로 정리하고 점검하는 용도의 책이라고 보면 맞다. 통계 용어, 공식, 개념 설명, 적용 사례, 그래프 보는 법, 샘플과 같은 것들이 잘 나와 있지만, 주요 핵심 개념 위주라서 학습서처럼 익히기에는 한계가 있다. 물론 독자의 통계 학습에 도움을 주기 위해, 각 단원마다 '더 읽을 거리'를 두어, 관련된 각종 책과 논문을 언급해 놓고 있다는 점은 이 책이 가진 한계를 보완하기 위한 저자의 꼼꼼한 배려라고 볼 수 있다.

'데이터 과학을 위한 통계'는 화려한 풀컬러로 지루한 수학책의 단조로움을 피하고 있다. 그만큼 코드나 그래프를 보기 편하다. 그리고 각 파트마다 '용어 정리'란이 있어서, 꼭 익히고 점검할 용어를 강조해놨다. 이 부분을 제대로 보지 않으면, 내용 이해가 제대로 안될 수 있으므로 몇 번이고 다시 봐야 할 부분이다. '주요 개념'에서는 각 소단원 내용을 정리하고 있어 다시 한번 핵심 정리하게 하고 있으며, 'TIP', 'NOTE', CAUTION'을 통해 추가 정보나 보강 설명을 하고 있다.

여러 예제와 함께 간결한 설명으로 되어 있는 '데이터 과학을 위한 통계'는 통계를 전체적으로 훑어보기 좋은 책이다. 특히 인공지능, 머신러닝, 빅데이터 등과 관련된 데이터 과학을 공부하거나 그쪽에 일하는 사람들에겐 통계 지식 정리와 함께 바른 통계 적용에 좀 더 실질적인 도움을 주는 책이라 생각한다.

tjqn***l2020-09-27

빅데이터 필수 책

8delp***l2020-09-27

R로 쉽게 배우는 통계학! 머신러닝은 덤~

빅데이터, 딥러닝, 머신러닝 등 AI를 필두로 한 기술이 요즘 각광을 받고 있다. 현재 자율주행차 뿐만 아니라 음악, 미술 등 예술 분야에 이르기까지 데이터를 기반으로 한 기술은 더이상 해가 지지 않을 것 같다. 많은 사람들이 그래서 이 기술을 배우고 싶어한다. 나는 SQLD라고 하는 자격증이 있었는데 곧 만료일이 다가온다. 시험을 볼 당시에 깜짝 놀랐던 건 남자 일색일거라고 생각했던 고사장에 여성분들이 아주 많았다는 것이었다. 컴퓨터 과학 등의 전공은 다른 공대 전공처럼 남초일 것 같지만 요즘은 그렇지 않은 것 같다. 통계학과 및 경영학과에서 이 데이터를 다루는 부분이 학습에 포함되어 있다보니 특히 여학우가 많은 경영학(국제경영학, 회계학 등 인접학과 포함)에서 유입이 이루어지고 있는데 이것은 문과가 취업도 잘 안되고 차별점을 명확히 찾지 못하면 정말 경쟁이 치열하다는 것이 반영되어 있다고 생각한다. 그래서 '데이터'자가 붙은 분야에는 여풍이 만만치 않다. SQL도 근본적으로는 데이터를 추출하고 분석하기 위한 도구이니 데이터베이스를 다룰 줄 알아야 하는 이 자격증에도 여초 현상이 심화되고 있다.

아무튼 이렇게 각광을 받는 분야가 가장 먼저 맞닥드리는 것이 바로 수학과 통계가 아닐까 싶다. 사실 수학과 통계를 분리하기 쉽지 않으니 같은 것으로 보고 나 또한 대학생 시절에 통계를 배우고자 했다. 난 3학년의 이제 막 편입생 신분이었던지라 1학년이 들을 수 있는 기초 통계 과목을 수강하지 못했다. 그래서 무려 수학학과에 가서 계절학기로 기초통계학을 수강했었다. 난 수학을 잘 못하지만 그래도 나보다 훨씬 어린 그 수학학과 생들을 상대로 A이상의 점수를 받았다는것에 대해 대단히 자부스럽게 생각했다. 그런데 공부하는 과정은 쉽지 않았다. 두꺼운 법전을 들고 한자로 쓰여 있어서 다 읽을 수도 없는 전공 공부를 하다가 수학을 다뤄야 하는 통계학을 공부하기가 만만치 않았다. 그래도 수학은 아니더라도 숫자는 많이 다루는 회계 수업으로 멘탈은 다져있어서 도전해볼 수 있었다.

내가 이렇게 대학교 시절을 장황하게 늘어놓는 이유는 여기서 소개하는 책이 대학생들의 통계 교재로 적합하겠다는 생각이 들어서다. 또는 자신이 문과이지만 데이터를 다루는 공부를 해보고 싶거나 단순히 통계를 공부하는 학생에게 도움이 될 것이라는 확신이 들어서다. 지금으로부터 무려 8년 전?에 통계를 여름방학에 공부하고 있었을 나에게 보내주고 싶은 책이다.

한빛미디어 책은 전면 컬러로 인쇄되어있다는 점이 보기가 편안하고 지치지 않게 해주는것 같다. 그럼 흑백으로 인쇄되어있으면 보기 편안하지가 않다는 거냐고? 그런 것은 아니지만 확실히 심리적으로 도움이 크게 되는 것 같다. 내가 당시에 사용하던 통계 교재랑 다른 점은 컬러로 인쇄되어있다는 점 외에도 실습 도구로 R을 택했다는 것이다. 당시 그 책을 공부하기 위해서는 SAS라는 소프트웨어가 필요했다. 구입해야 하는 라이센스가 필요한 소프트웨어이다 보니 실습을 특정 강의실에서 할 수 밖에 없었다. 그때 막 C라는 프로그래밍을 배운 직후여서 인지 프로그래밍 자체는 어렵지 않았지만 방과 후 내가 집에 갔을 때 다시 연습할 수 없다는 점이 가장 막막했다. C 수업은 그냥 집에 가서 성능도 좋지 않던 넷북으로 실습과 과제를 해도 무리가 없었다. 그런데 이 책은 R로 실습을 하고 결과를 알 수 있으니 매우 편리하다는 점을 말하지 않을 수 없다. R은 오픈소스이고 무료이다^^

왜 파이썬을 택하지 않았을까라는 생각이 잠시 들었는데 개발이 아니라 통계 공부 자체에는 R이 훨씬 유익하다고 보고 있다. 다만 R의 설치 및 기본적 조작 과정은 책에 들어가 있지 않은데 그런 것은 블로그에 너무나도 쉽게 잘 나와있다. 이런 것까지 들어간다면 통계에 촛점을 맞춘 책의 발간 목적이 흐려지고 부담스럽게 책의 분량도 늘어날 것이다. 잘한 선택인 것 같다.

외국인 저자가 쓴 책에 이런 표지이면 솔직히 두려움이 살짝 있는데 이 책은 그렇지 않다. 그렇게 어렵지 않고 쉬운 편이다. 어려운 통계 용어도 '용어 정리'라는 칸을 통해 간략하게 정리해주었다. 처음부터 여럽게 가지 않고 도수분포표, 히스토그램 등으로 시작하는 등 난이도별 단계적 학습을 보여주고 있다. 최빈값, 기댓값, 산점도, 범주형 변수, 수치형 변수 같은 용어들이 크게 어렵지는 않을 것이다. 나중에는 조금은 어려울 수도 있는 가설, 회귀 등의 내용도 나오는데 R로 실습을 하고 결과를 볼 수 있으니 이 부분은 그래도 이해가 수월할 수 있겠다. 결과를 못 보고 그냥 머리로만 이해하면 얼마 못 가지만 내가 직접 코딩하고 과정, 결과도 보면 확실히 오래간다.

마지막 장에 가서 이것은 이 책의 끝판왕일 정도로 난이도가 높은 것이다! 이런 것은 아니다. 다만 배운 것을 바탕으로 하여 머신러닝의 요소가 좀 추가된 것이다. 그래서 '통계적 머신러닝'이라고 하는데 이 부분은 '우리가 통계를 앞에서 배웠는데 그럼 그 다음에는 무엇을 할 것인가?'에 대한 답이라고 볼 수 있겠다. 이 책을 선택한 사람들은 결국에는 머신러닝, 딥러닝 같은 것이 하고 싶기 때문에 그랬다고 믿는다. 그래서 그런 것들을 위해 처음 통계를 접한다면 여기서 접하는 머신러닝 내용이 많은 도움이 될 것이다.

yongh***l2020-09-27

어려운 통계학을 컬러풀한 예제와 그림으로 보는 재미를 더한 책

소프트웨어 엔지니어로 일하고 있지만 수포자(수학포기자)로 살아왔기 때문에 수학 관련된 공부는 항상 기피를 했었다. 게다가 게임 개발자로 오랜 시간 업무를 해왔기 때문에 생각보다 전문적인 수학 지식이 필요로 하지는 않았었다. 그렇게 지금까지 수학과는 거리감을 유지하면서 지내왔는데 몇년 전 부터 조금씩 빅데이터와 관련된 업무나 스터디를 진행하면서 수학의 필요성을 느끼게 되었다.

가장 처음 필요성을 느꼈던 때는 스타트업에서 게임 서버 개발자로 근무할 당시였는데, 사업부에서 현재 게임에 대한 동접, 사용자 이탈률, 매출, 각 기능별 사용률 등등 통계가 필요한 요구사항들이 생기면서부터 였다. 당시에는 엘라스틱서치를 사용하여 잘 모르는 통계 지식들을 겉핥기 식으로 찾아가며 대응을 했었는데 개념 잡는데 꽤 오랜 시간이 걸렸다.

이 후에는 어떤 패턴을 가진 사용자가 실제 결제까지 하게 되는지 예측을 하기 위해 머신러닝을 공부하고 PoC를 진행해보았는데 이 때도 마찬가지로 개념 잡는데 꽤 오랜 시간이 걸렸다. 이 과정들을 겪으면서 느낀 것은 수포자도 충분히 할 수 있을 것 같다는 것이었다. 그 이유는 이미 수학적으로 깊게 들어가고 어려운 부분은 라이브러리화 되어 사용하기 쉽게 제공되고 있었고, 이를 개발자 및 데이터 엔지니어들이 잘 가져다 사용하면 되기 때문이다. 가져다 사용하는 것이지만

그래도 기본적인 개념을 가지고 있어야 이마저도 할 수 있는 것이기 때문에 기본적인 공부는 필요하다. 이를 위해 좋은 선택지는 책을 통한 공부인데, 그 중에서도 이 책 "데이터 과학을 위한 통계"는 기본 이론부터 실제 사용까지 잘 정리가 되었기 때문에 공부가 필요한 부분을 찾아서 이해하는데 큰 도움이 될 것이라고 생각한다.

일단 책이 컬러풀하기 때문에 읽는 재미가 있었고, 실제 따라해볼 수 있는 예제가 존재하기 때문에 이해에도 큰 도움이 되었다. 중간 중간 주요 개념에 대한 정리가 있어서 요점을 정확히 알 수 있고, 노트와 더 읽을 거리를 통해서 부족한 지식을 더 찾아 볼 수 있어서 좋았다.

사실 이 책의 내용이 나에게 쉽지는 않았고, 어려운 용어들도 많아서 이해하지 못한 것이 대부분이지만 어떤 경우에 어떤 것을 가져다 사용할지에 대한 선택은 할 수 있을 것 같았다. 데이터 분석을 어떻게 시작해야 할 지 모르는 나 같은 수포자들에게는 큰 도움이 될 수 있을 것이라고 생각한다. 이 책을 시작으로 다양한 데이터 분석 사례와 머신러닝 사례가 나오면 좋겠다.

curieu***l2020-09-23

R초보 읽어보다

후기에 앞서 기술서 리뷰이기 때문에 어떤 사람이 리뷰하는지 명시하는 것이 좋을 것 같아 적어보겠습니다.

리뷰어의 스펙
- R은 들어보기만 하고 해본 적 없음
- 통계는 고등학교 때 `확률과 통계`과목 이후로 공부한 적 없음
- 확률은 `확률변수론`만 2020-1학기 에 공부

	이 책의 대상 독자는 어느 정도 R을 다뤄 본 사람이며 사실 나는 알맞은 대상 독자라고 할 수는 없었다. R의 기본적인 문법을 알려주기보다는 통계 이론과 개념들을 알려주며 R에서 어떤 식으로 데이터 분석을 할 수 있는 지에 초점이 맞춰져 있다. 앞서 밝혔듯이 본인은 R  왕초보였기 때문에 처음 R을 설치하고 library를 불러오는 등의 기본 사용 방법에 대해서는 구글링하며 배웠다.  다행히 Jupyter notebook(or lab)에서 R언어도 지원해서 어렵지 않게 코딩 환경(conda virenv)을 만들 수 있었던 것 같다. (R Studio로 하지 않았다.) 따라서 본인처럼 Python으로 Jupyter notebook이 익숙하시고 (R이 아니더라도)조금만 코딩에 익숙한 사람이라면 R의 다양한 기능들을 처음 접해보고 흥미를 가지는데 괜찮을 것 같다.

이 책의 장점은 용어 정리 부분이었다. 통계 분야와 데이터 과학의 용어들을 여기저기서 들어보기만 하고 정리가 안되었었기에 가장 도움이 된 부분이다. 특히 용어들이 한자일 경우 유독 어렵게 느껴지고 친숙해지기 어려운데 통계/확률 쪽 용어들이 대부분 그런 것 같다. 또한 같은 말인데 전통 통계 분야에서 말하는 의미와 데이터 과학 분야에서 말하는 용어가 다르거나, 혹은 그 반대로 말은 똑같은데 각 분야의 맥락에서는 다른 의미인 부분들도 짚어볼 수 있었다.

또한 이론을 따라 가다 보면, 가끔 논점이 흐려지고 이 책의 제목을 까먹을 만큼 목적을 읽어버리기 쉬운데 “NOTE”에서 한번씩 “데이터 과학자”의 입장에서 다시 한 번 짚어야 할 부분을 잡아주기도 해서 좋았었다.  “더 읽을 거리” section도 있었는데 각 자료들이 좋아 보였지만 1회독 차에서는 일일이 볼 순 없었다. 자연스럽게 n회독 방향을 잡아주었다.

단점이라면 기술서라면 제공하는 github code가 친절하지 않았다. (사실 이건 R 초보자인 본인에게만 해당하는 말일 수 있다.) 책에는 중요코드 5~10줄 내외로 나와있지만 github에는 대단원의 모든 코드가 한 파일에 다 들어가 있었다. Jupyter lab에서 하나씩 찍어 가보며 공부하는 스타일의 독자에게는 불편한 보기였다. 또한 data load 부분도 좀 더 설명이 있었으면 코드를 좀 더 쉽게 따라 칠 수 있지 않았을까라는 아쉬움도 있었다. 하지만 역설적이게도 원본 repository의 불편한 편집을 하나씩 관찰해가며(R을 이해했다고 할 수는 없기에 ‘관찰’이라 하겠다.) 개인 repository 에 정리하니 R에 대해 이해가 더 잘되기도 했었다.(이에 더해 github정리하는 뿌듯함은 덤..:)) 

전체적인 책 리뷰 만족도는 4/5인 것 같다. ML/DL에 수없이 많은 분야들 중에 <데이터 분석/과학> 쪽은 매번 넘겨짚거나 들어보기’만’하는 수준이었는데 조금은 흔들리는 초석을 다잡은 느낌(?)이었다. 

--이 리뷰는 한빛미디어 “나는 리뷰어다” 프로그램을 통해 작성되었습니다--

bum***l2020-09-20

데이터 과학을 위한 통계(Practical Statistics for Data Scienties)

jjk8***l2020-09-12

[데이터 과학을 위한 통계(Practical Statistics for Data Scientists)]를 읽고

빅데이터 분석과 머신러닝이 각광받는 세상이 도래하였다. 하지만 수학적 통계지식과 벡터연산 등 수포자들에게 빅데이터 분석과 머신러닝을 공부한다는건 먼나라 이야기와 다르지 않다. 그렇다고 이제와서 다시 수리통계학을 공부할 수도... 그럴 효용성도 떨어진다는 것 또한 사실이다. 이런 Needs를 반영한 책이 [데이터 과학을 위한 통계(Practical Statistics for Data Scientists)]이다.

데이터과학 실무 전문가인 앤드루 브루스와 통계교육기관 설립자인 피터 브루스가 공저한 책이다. 탐색적 데이터 분석을 필두로 데이터와 표본분포, 통계적 실허모가 유의성 검정, 회귀와 예측, 분류, 통계적 머신러닝, 비지도학습에 이르기 까지 각 Chapter마다 주요개념과 용어정리가 잘되어 있다. 각자가 동일한 의미를 다른 단어로 표현하거나, 다른의미를 같은 단어로 이야기한다면 의사소통은 달나라여행을 떠나게 된다. 그렇기에 용어정리과 개념정리가 들어있어 저자와 독자가 같은 방향을 바로보고 의사소통할 수 있도록 배려하고 있는 책이라 좋았다.

처음부터 읽어나가기 부담스러운 분들은 책 말미에 있는 index를 참고하여 필요할 때마다 찾아보며 차근차근 읽어 나간다면 더욱 알차게 이 책을 활용할 수 있을것으로 판단된다. 특히 설명이 간결하고 R언어로 제공되는 코딩 예제 또한 다운로드가 가능하니 직접 실습을 통해 공부한다면 분석기법과 통계 개념을 이해하는데 많은 도움이 될것이라 생각한다. 빅데이터 분석과 머신러닝 분야에 종사하거나 관심있으나 수학적 개념의 벽에 무릎꿇은 분들이라면 이 책을 읽어보기를 추천한다.

#데이터과학을위한통계 #데이터과학 #통계분석 #한빛미디어 #피터브루스 #앤드루브루스 #데이터분석 #회귀 #예측 #책스타그램 #북스타그램 #서평 #독서 #독서스타그램 #책스타그램 #신간 #북리뷰 #책리뷰 #책리뷰 #추천

sihan***l2020-09-11

데이터 과학을 위한 훌륭한 통계 레시피

이번 달에 리뷰 할 책은 통계학과 데이터 과학에 관한 책입니다. 이 책을 고민하실 때 가장 중요한 이야기를 먼저 하자면 `R`로 쓰여진 책 입니다. `R`에 익숙하지 않아 책을 읽으면서 코드가 쭉쭉 읽히지 않았던 점은 아쉬웠지만 통계를 다루시는 분들 중에 `R`유저가 많기 때문에 개인적인 아쉬움으로 묻어두고 리뷰를 시작하겠습니다. 책의 구성은 정말 마음에 들었습니다. 각 절을 시작하면서 다루는 핵심 용어들을 요약 정리를 해줍니다. 해당 절에서 어떤 내용을 다룰지 미리 볼 수도 있고, 개념이 헷갈릴 때 책 중간을 다시 찾지 않아도 되어서 좋았습니다. 역자 분께서 대부분의 용어를 한국어화 하셨는데 용어 정리 부분에 영어로 병기를 해주셔서 영어 명칭이 익숙하거나 인공지능 커뮤니티들에서 눈에 익은 용어를 볼 수 있어 개념 연결에 도움이 되었습니다. 통계에 다양한 개념들을 두루두루 다루고 있습니다. 하지만 개념의 가짓수에 비해서는 책의 두께가 다소 얇다는 생각이 들 정도입니다. 즉 다양한 개념은 다루고 있지만 각 개념을 세세하게 다루지는 않는 다는 의미입니다. 그렇다고 무책임하게 짧게 다루고 끝내지 않습니다. 좀 더 알고 싶은 사람을 위한 자료를 가이드하고 있습니다. 통계에 다양한 개념들을 데이터과학에 어떻게 적용하고, 어느 상황에 필요한지를 제시하고 있는 책이기 때문에 이 자료를 이용해서 진행 중이 프로젝트에 필요한 개념을 찾고, 딥 다이브 할 수 있게 도와줍니다. 이 책을 통해서 통계를 밑바닥부터 차근차근 쌓겠다는 생각으로 시작하면 실망감과 자괴감응 동시에 느끼실 수도 있습니다. 밑바닥이 없이 보기에는 아리송한 개념들이 다소 있기 때문에 기초 서적은 다른 책을 선택하시는 걸 추천합니다. 추천 대상 : 통계 공부를 했는데 데이터 과학을 하면서 어떤 개념들을 적용하는게 맞는지 헤매는 그대 난이도 : 보통 사용언어 : `R`