메뉴 바로가기 검색 및 카테고리 바로가기 본문 바로가기

Think Stats : 프로그래머를 위한 통계 및 데이터 분석 방법

리얼타임 eBook

번역서

판매중

  • 저자 : 앨런 B. 다우니
  • 번역 : 김석우
  • 출간 : 2013-09-03
  • 페이지 : 179 쪽
  • ISBN : 9788968486340
  • 초급 초중급 중급 중고급 고급
1 2 3 4 5
3.8점 (5명)
좋아요 : 40

책소개

데이터를 분석하려면 통계 개념을 알아야 한다!

 

몇 년 전부터, 여러 곳에서 미래의 유망 직종으로 '데이터 사이언티스트'라는 신종 직업을 언급하고 있다. 데이터 사이언티스트란 분석과 개발이 명확히 구분되던 과거와 달리, 데이터 분석과 개발을 동시에 할 수 있는 고급 인력을 뜻한다. 특히 요즘처럼 빅데이터가 주목받는 시대에는 빅데이터를 자유자재로 다루는 것은 물론, 그 데이터를 분석하여 데이터 속의 숨은 가치를 찾아 주는 데이터 사이언티스트의 수요가 늘어날 수밖에 없다. 하지만 기존 분석가들에게는 개발이라는 장벽이, 기존 개발자들에게는 통계학이라는 장벽이 존재한다. 개발 회사 및 연구소에 근무하면서 통계학이라는 장벽을 넘지 못하여 좌절하는 개발자가 종종 있다. 

 

데이터를 분석하려면 통계 개념을 잘 알고 있어야 한다. 또한, 데이터 분석 도구의 개념도 잘 알아야 한다. 이 책은 데이터를 수집하거나 패턴 및 테스트 가설을 세우는 일 등의 사례를 배우면서 데이터 분석 프로세스와 데이터 분석 방법의 이해를 하는 데 도움이 될 것이다.

 

대상 독자

  • 빅데이터를 다루려는 빅데이터 관련 프로그래머
  • 통계 관련 개념의 이해를 높이고 싶은 프로그래머

 

데이터 사이언티스트를 꿈꾸는 프로그래머를 위한 통계 및 확률 입문서
이 책은 통계와 확률을 학습하는 데 어려움을 겪고 있는 개발자들에게 데이터를 분석하는 데 필요한 통계적 이론을 개발자의 관점에서 쉽게 설명해 준다. 과거, 통계학 입문 서적은 복잡한 수식을 통한 이론 설명에 집중하여 개발자가 쉽게 접근할 수 없었다. 이에 반해, 이 책은 복잡한 수식을 배제하고 파이썬 코드를 이용해 개발자적인 관점에서 이론 부분을 설명함으로써, 개발자들도 복잡한 통계 이론을 쉽게 이해할 수 있도록 돕는다. 물론 통계 전문 용어를 그대로 사용하기 때문에, 초반에는 개발자들이 조금 어렵고 낯설게 느낄 수도 있다. 하지만 매 장 부록마다 해당 장에서 다룬 통계 전문 용어를 설명해 주고 있어서, 큰 문제가 되지는 않을 것이라 확신한다.

 

이 책은 확률과 통계 입문 수업을 위한 새로운 종류의 교과서로, 크기가 큰 데이터 세트를 분석하는 데 통계를 어떻게 사용하는지에 초점을 맞췄다. 이 책은 또한 컴퓨터를 이용한 접근 방식을 취하는데, 여기에는 다음과 같은 장점이 있다.

 

  • 프로그램을 작성해 봄으로써 자신이 이해한 부분을 발전시켜 보고 검증해 볼 수 있다. 예를 들어, 최소제곱법, 잔차, 그리고 결정계수를 계산하는 함수를 작성할 수 있다. 코드를 작성하고 검증하기 위해서는 이와 관련된 개념을 이해해야 하며, 잘못 이해하고 있었던 부분은 무조건 바로 잡아야 한다.
  • 독자는 통계학적 거동을 검증하기 위해 실험을 해 볼 수 있다. 예를 들어, 몇몇 분포에서 샘플(표본)을 생성해 보면서 중심극한정리를 탐구해 볼 수 있다. 파레토 분포에서 생성한 변수의 합이 정규로 수렴하지 않는 것을 보면서는 CLT의 기본 가정을 기억하게 된다.
  • 시뮬레이션을 통해 수학적으로 이해하기 힘든 개념을 쉽게 이해할 수 있다. 예를 들어, 몬테카를로 시뮬레이션으로 p-value의 근사치를 계산함으로써 p-value의 의미를 더 잘 이해할 수 있다. 
  • 이산 분포와 컴퓨터를 이용한 계산을 통해 베이지안 추정 같은, 입문 수업에서 다루기 힘든 주제를 논할 수 있다. 예를 들어 '독일 탱크 문제'와 관련하여 사후 분포를 계산해 보라고 한다면? 이 문제는 수리적 또는 해석학적으로는 풀기 어렵지만 컴퓨터로 계산하면 놀라울 정도로 쉽게 답을 구할 수 있다.
  • 파이썬 같은 범용 프로그래밍 언어를 사용하기 때문에 어떤 종류의 데이터든 대부분 불러올 수 있다. 특정 통계 툴에 맞게 포맷 변경과 정제 작업을 거친 데이터도 아무 제약 없이 사용할 수 있다.
  • 이 책은 프로젝트 중심으로 구성했다. 실제 강의에서 필자는 학생들에게 한 학기 동안 통계적 문제 해결 방식이 필요한 프로젝트를 주고, 그에 알맞은 데이터를 찾게 하였다. 여러분은 여러 통계적 기술을 데이터에 직접 적용해 봄으로써 데이터에 대해 배울 수 있다.

저자소개

앨런 B. 다우니 저자

앨런 B. 다우니

올린 공과대학교(Olin College of Engineering)의 컴퓨터공학과 교수로, 웰즐리 대학교(Wellesley College)와 콜비 대학교(Colby College), UC 버클리 대학교(UC Berkeley)에서 강의하였습니다. UC 버클리 대학교에서 컴퓨터공학 박사 학위를, MIT에서 석사와 학사 학위를 받았습니다. 이 책 외에도 『Think Stats』(2013), 『파이썬을 활용한 베이지안 통계』(2014, 이상 한빛미디어)를 집필하였습니다.

김석우 역자

김석우

데이터를 사랑하고 데이터 속에서 무엇을 발견할지 항상 고민하는 분석가 겸 개발자다. 학부 때는 수치 해석 및 수학적 최적화 방법에 매료되어 수학을 전공했고, 석사 때는 통계적 데이터 마이닝에 매료되어 통계학 석사를 취득하였다. 이후 Daum Communications 검색 본부 데이터 마이닝 팀을 거쳐 현재는 SK플래닛 데이터 기술연구소의 Data Analytics 팀에서 근무하고 있다. Daum에 근무할 때부터 최근 화두가 되고 있는 빅데이터를 유용하게 분석하여 가치를 뽑아내는 것에 대해 고민해 왔으며, 단순히 분석뿐만 아니라 개발에 어떻게 활용할 수 있을지 연구하고 있다. 개발자들에게 분석 및 통계 이론을 전파하려고 노력하며, 분석가들에게는 분석을 위한 개발 방법과 최신 기술을 전파하기 위해 노력 중이다.

목차

1. 프로그래머를 위한 통계적 사고
  1.1 첫아이는 예정일보다 늦게 태어날까?
  1.2 통계적 접근
  1.3 전미 가족 성장 조사
  1.4 테이블과 레코드
  1.5 유의성
  1.6 용어 정리

 

2. 기술 통계
  2.1 평균값과 평균
  2.2 분산
  2.3 분포
  2.4 히스토그램으로 표현하기
  2.5 히스토그램 그리기
  2.6 PMF 표현하기 
  2.7 PMF 그리기
  2.8 극단값
  2.9 그 외의 시각화 방법
  2.10 상대 위험도
  2.11 조건부 확률
  2.12 결과 해석하기
  2.13 용어 정리

 

3. 누적 분포 함수
  3.1 학생 대 교수 비율의 역설
  3.2 PMF의 한계 
  3.3 백분위수
  3.4 누적 분포 함수
  3.5 CDF 표현하기
  3.6 다시 설문 조사 데이터 살펴보기
  3.7 조건부 분포
  3.8 난수
  3.9 요약 통계 다시 짚어 보기
  3.10 용어 정리

 

4. 연속 분포
  4.1 지수 분포
  4.2 파레토 분포
  4.3 정규 분포
  4.4 정규 확률 그림
  4.5 로그 정규 분포
  4.6 왜 모델링을 해야 하는가?
  4.7 난수 생성하기
  4.8 용어 정리

 

5. 확률
  5.1 확률 법칙
  5.2 몬티 홀
  5.3 푸앵카레
  5.4 그 외의 확률 법칙
  5.5 이항 분포
  5.6 스트리크와 핫스팟
  5.7 베이즈 정리
  5.8 용어 정리

 

6. 분포에 대한 연산
  6.1 왜도 
  6.2 확률변수
  6.3 확률밀도함수, PDF
  6.4 합성곱
  6.5 왜 정규 분포인가?
  6.6 중심극한 정리
  6.7 분포 프레임워크
  6.8 용어 정리

 

7. 가설 검정(검증)
  7.1 평균차 검정하기
  7.2 분계점 선택
  7.3 효과에 대한 정의
  7.4 결과에 대한 해석
  7.5 교차입증
  7.6 베이즈주의 확률에 대한 보고
  7.7 카이 제곱 검정
  7.8 효율적 재표본추출(재표집)
  7.9 검정력
  7.10 용어 정리

 

8. 추정
  8.1 추정 게임
  8.2 분산 추정
  8.3 오차 이해하기
  8.4 지수 분포
  8.5 신뢰 구간
  8.6 베이지안 추정
  8.7 베이지안 추정 구현하기
  8.8 중도절단 자료
  8.9 기관차 문제
  8.10 용어 정리

 

9. 상관
  9.1 표준 점수
  9.2 공분산
  9.3 상관
  9.4 pyplot으로 산포도 그리기
  9.5 스피어먼 순위 상관
  9.6 최소제곱법
  9.7 적합도
  9.8 상관관계와 인과관계
  9.9 용어 정리

독자리뷰

오탈자 보기

결제하기
• 문화비 소득공제 가능
• 배송료 : 0원배송료란?

배송료 안내

  • 20,000원 이상 구매시 도서 배송 무료
  • 브론즈, 실버, 골드회원 무료배송
닫기

리얼타임 eBook 안내

PDF 형식으로 제공되며, 다운로드한 eBook은 PDF 포맷을 지원하는 디바이스 또는 프로그램에서 제한없이 열람할 수 있습니다. 또한 eBook 내의 텍스트 검색 및 인쇄도 가능합니다.

리뷰쓰기

닫기
* 상품명 :
Think Stats : 프로그래머를 위한 통계 및 데이터 분석 방법
* 제목 :
* 별점평가
1 2 3 4 5
* 내용 :

* 리뷰 작성시 유의사항

글이나 이미지/사진 저작권 등 다른 사람의 권리를 침해하거나 명예를 훼손하는 게시물은 이용약관 및 관련법률에 의해 제재를 받을 수 있습니다.

1. 특히 뉴스/언론사 기사를 전문 또는 부분적으로 '허락없이' 갖고 와서는 안됩니다 (출처를 밝히는 경우에도 안됨).
2. 저작권자의 허락을 받지 않은 콘텐츠의 무단 사용은 저작권자의 권리를 침해하는 행위로, 이에 대한 법적 책임을 지게 될 수 있습니다.

오탈자 등록

닫기
* 도서명 :
Think Stats : 프로그래머를 위한 통계 및 데이터 분석 방법
* 구분 :
* 상품 버전
종이책 PDF ePub
* 페이지 :
* 위치정보 :
* 내용 :

도서 인증

닫기
도서명*
Think Stats : 프로그래머를 위한 통계 및 데이터 분석 방법
구입처*
구입일*
부가기호*
부가기호 안내

* 온라인 또는 오프라인 서점에서 구입한 도서를 인증하면 마일리지 500점을 드립니다.

* 도서인증은 일 3권, 월 10권, 년 50권으로 제한되며 절판도서, eBook 등 일부 도서는 인증이 제한됩니다.

* 구입하지 않고, 허위로 도서 인증을 한 것으로 판단되면 웹사이트 이용이 제한될 수 있습니다.

닫기

해당 상품을 장바구니에 담았습니다.이미 장바구니에 추가된 상품입니다.
장바구니로 이동하시겠습니까?