문과 출신도 쉽게 배우는 통계학

Math/수학 이야기|2022. 4. 27. 22:00

책소개
저자는 글쓰기를 생업으로 하는 문과 출신이다. 여기서 정의하는 문과 출신은 교양 과목을 잘하거나 날카로운 감성의 소유자 같은 멋있는 이야기가 아니라, 그저 학생 시절에 ‘수포자(수학을 포기한 학생)’였던 사람을 지칭한다. 나아가 그때의 좌절을 극복하지 못해 수학을 싫어하는 어른이 된 사람을 말한다.

일단 수학 알레르기가 생기면 그때부터 골치 아프다. 잘 살펴보면 별로 어려운 것도 아닌데 수학의 향기가 조금이라도 풍기는 무엇인가가 눈앞에 등장하면 반사적으로 머릿속이 하얗게 되면서 뒷걸음질 치기 때문이다. 그리고 ‘문과 출신이에요’라는 정체불명의 장막에 숨어서는 나오지 않으려 한다. 그런 저자조차 요즘 관심을 갖게 된 분야가 있으니 바로 ‘통계학’이다.

빅데이터, 데이터 사이언스, 데이터 드리븐 경영 등 최근 비즈니스 분야에서는 툭하면 ‘데이터’라는 단어가 따라다닌다. 그때 종종 같이 얼굴을 내미는 녀석이 통계학이다. 만약 수학을 싫어(일명 문과 출신)하는 사람들을 모아서 ‘아주 편리해 보이지만 잘 모르는 학문 순위’를 만든다면 아마도 상위 3위에 들어가는 학문일 것이다.

서적 코너에서 ‘통계학’이라는 글자가 저자의 시야에 들어올 때마다 ‘아, 또 이놈이구나. 물론 통계학을 이해할 수 있다면 상당한 무기가 되겠지. 하지만 문과 출신이야. 괜한 생각은 그만하자’라며 빛의 속도로 통과시켰다. 그래, 궁금하기는 했다. 그런 문과 출신이 통계학을 배우겠다고 나섰다. 이 책의 선생님으로 등장하는 다카하시 신(高橋 信) 씨를 모셨다. 참고로 다카하시 선생님은 베스트셀러 《만화로 쉽게 배우는 통계학》 시리즈의 원작자로 유명한 통계학자이자 저술가이다.


목차
들어가며―
등장인물 소개

1일째
통계학의 세계로 오신 것을 환영합니다
1교시 통계학은 어떤 학문일까?
지난 100년간 크게 발전한 학문
통계학은 어디서 쓰일까?
의학과 심리학에도 이용된다
통계학은 쉽지 않다!
데이터 리터러시를 높여라!
통계학에는 두 종류가 있다
신흥세력 ‘베이즈 통계학’이란?
2교시 통계학에는 다양한 분석기법이 있다
대표적 분석기법① 중회귀 분석
대표적 분석기법② 로지스틱회귀 분석
대표적 분석기법③ 주성분 분석
3교시 빅데이터의 환상에 넘어가지 마라!
빅데이터는 만능 해결사?
데이터에 기반한 경영의 어려움
이 책으로 데이터 리터러시 높이자!
➜ 1일째 수업 정리

2일째
‘무늬만 조사’에 휘둘리지 않는 무작위 추출법
1교시 조사의 신뢰성은 ‘무작위 추출법’으로 결정된다!
‘무늬만 조사’에 속지 마라!
신뢰할 수 있는 조사를 하고 싶다면 ‘무작위 추출법’을!
다카하시 선생님이 숫자를 해석하는 법/ 원형 차트는 신중하게 사용하자
2교시 4가지 무작위 추출법을 이해하자!
모든 대상으로부터 무작위로 추출하는 ‘단순 무작위 추출법’
층으로 나눠서 추출하는 층별 추출법
2단계로 추출하는 ‘2단 추출법’
층별+2단 조합 기술인 ‘층별 2단 추출법’
진실을 아는 것은 모집단뿐
무작위 할당이라니?
리뷰 경제의 위기
➜ 2일째 수업 정리

3일째
데이터의 분위기를 파악하자! 수량 데이터 편
1교시 데이터는 먼저 분위기를 파악해야 한다!
데이터를 다루는 법의 기본을 배우자
데이터의 분위기를 파악하다니?
데이터는 두 종류로 나뉜다
2교시 ‘데이터가 흩어진 정도’를 수치화해 보자
‘평균’이란 ‘평평하게 고르는’ 것
제곱합, 분산, 표준편차로 ‘데이터가 흩어진 정도’를 파악하자.
평균을 기준점으로 삼은 것이 ‘제곱합’
제곱합의 약점을 해결하는 분산
분산을 루트로 나타낸 표준편차
제곱합, 분산, 표준편차는 통계학의 숨은 매니저 역할!
추리통계학에서 사용하는 ‘불편분산’
평균의 약점을 해결하는 ‘중앙값’
3교시 사실은 우리 주변에 있었다!? 데이터의 ‘기준화’
데이터의 규격을 통일하는 ‘기준화’
기준값은 모두 알고 있는 그 숫자였다!?
만화 칼럼/ 다카하시 선생님의 데이터는 깔끔해!
➜ 3일째 수업 정리

4일째
데이터의 분위기를 파악하자! 범주형 데이터 편
1교시 범주형 데이터의 분위기는 ‘비율’로 파악하라!
범주형 데이터의 분위기 파악방법은 간단하다!
제곱합을 변형해 보자.
범주형 데이터의 분위기를 파악하는 방법은 초단순!
2진 데이터는 수량 데이터로 취급할 수 있다!
그 집계 방법은 틀렸어요!
다카하시 선생님의 숫자를 보는 관점/ ‘선거는 하는 게 좋다’는 이야기
➜ 4일째 수업 정리

5일째
데이터를 가시화한다! 정규 분포
1교시 데이터의 분위기를 한눈에 알 수 있다!
히스토그램과 확률 밀도 함수
‘도수분포표’로 ‘히스토그램’을 만들자
확률 밀도 함수 그래프와 가로축 사이에 낀 부분의 면적은 1
2교시 정규 분포를 마스터하자!
중요한 확률 밀도 함수를 기억하자
정규 분포에 일치하는 데이터가 존재하는가?
특별한 정규 분포 ‘표준 정규 분포’
표준 정규 분포의 특징을 파악하자!
면적=비율=확률
확률 밀도 함수의 엄격한 정의
만화 칼럼/ 읽을 수 있어? 그리스문자
➜ 5일째 수업 정리

6일째
실전! 모집단의 비율을 추정해보자
1교시 표본 데이터에서 모집단의 비율을 추정하자!
표본 데이터를 통해 모집단의 상황을 알아보자
신뢰 구간의 공식을 도출하다
단 1번의 조사로 신뢰 구간을 믿어도 될까?
표본의 인원수, 신뢰 구간, 신뢰율의 관계
왜 주요 언론은 ‘신뢰 구간’을 보도하지 않을까?
6일째 수업 정리

7일째
실전! 중회귀 분석을 해보자
1교시 회귀 분석을 마스터하자!
회귀 분석이 무엇일까?
회귀식을 구하려면 공식에 대입하기만 하면 된다!
회귀식은 어떻게 해석할까?
실측값, 예측값, 잔차란?
결정 계수란?
다카하시 선생님의 숫자 보는 법/ 원칙적으로는 피해야 할 세로 막대 그래프
2교시 중회귀 분석을 마스터하자!
중회귀 분석은 회귀 분석의 발전판
통계학은 마법의 학문이 아니다
7일째 수업 정리

보강
통계적 가설검정이 뭘까?!
모든 수업을 종료! 하기 전에…
가설이 옳은지 추론한다

후기
부록 회귀식 도출


문과 출신도 이해할 수 있는 통계학 입문서
수포자도 한 권을 끝까지 읽을 수 있는 수업으로 구성
데이터 사회를 살아가기 위한 생존술
통계학(Statistics)-.

저자는 글쓰기를 생업으로 하는 문과 출신이다. 여기서 정의하는 문과 출신은 교양 과목을 잘하거나 날카로운 감성의 소유자 같은 멋있는 이야기가 아니라, 그저 학생 시절에 ‘수포자(수학을 포기한 학생)’였던 사람을 지칭한다. 나아가 그때의 좌절을 극복하지 못해 수학을 싫어하는 어른이 된 사람을 말한다. 일단 수학 알레르기가 생기면 그때부터 골치 아프다. 잘 살펴보면 별로 어려운 것도 아닌데 수학의 향기가 조금이라도 풍기는 무엇인가가 눈앞에 등장하면 반사적으로 머릿속이 하얗게 되면서 뒷걸음질 치기 때문이다. 그리고 ‘문과 출신이에요’라는 정체불명의 장막에 숨어서는 나오지 않으려 한다. 그런 저자조차 요즘 관심을 갖게 된 분야가 있으니 바로 ‘통계학’이다.

빅데이터, 데이터 사이언스, 데이터 드리븐 경영 등 최근 비즈니스 분야에서는 툭하면 ‘데이터’라는 단어가 따라다닌다. 그때 종종 같이 얼굴을 내미는 녀석이 통계학이다. 만약 수학을 싫어(일명 문과 출신)하는 사람들을 모아서 ‘아주 편리해 보이지만 잘 모르는 학문 순위’를 만든다면 아마도 상위 3위에 들어가는 학문일 것이다. 서적 코너에서 ‘통계학’이라는 글자가 저자의 시야에 들어올 때마다 ‘아, 또 이놈이구나. 물론 통계학을 이해할 수 있다면 상당한 무기가 되겠지. 하지만 문과 출신이야. 괜한 생각은 그만하자’라며 빛의 속도로 통과시켰다. 그래, 궁금하기는 했다. 그런 문과 출신이 통계학을 배우겠다고 나섰다. 이 책의 선생님으로 등장하는 다카하시 신(高橋 信) 씨를 모셨다. 참고로 다카하시 선생님은 베스트셀러 《만화로 쉽게 배우는 통계학》 시리즈의 원작자로 유명한 통계학자이자 저술가이다.

통계학은 어떤 학문일까
우리가 자주 접하는 여론조사
의학과 심리학에도 이용
요즘 주목받고 있는 통계학, 문과 출신은 숫자만 봐도 어질어질한데 통계학은 더 어려울 것 같은데…. 아무튼 통계학이 어떤 학문일까? 통계학은 지난 100년간 크게 발전한 학문이다. 그런데 요즘에는 왠지 모르지만 통계학이 주목을 받고 있다. 아마 빅데이터가 회자되고 있어서가 아닐까. 기업과 공공기관은 기술 발전 덕분에 다양한 종류의 데이터를 엄청나게 많이 수집할 수 있게 되었다. 그 데이터를 묻어두는 건 아까우니 이걸 좀 활용해보자, 그러려면 통계학을 알아야 한다.
우리 주변에서 예를 들자면 여론조사가 있다. 집권 여당 지지율도 이에 해당한다. 전월 대비 몇 포인트 내렸다는 식으로 언론에 보도된 것이 모두 통계학이다. 그리고 비즈니스에서도 통계학을 이용한다. 마케팅 리서치의 예로 ‘어느 연령층이 어떤 SNS를 가장 많이 이용하는가’를 조사해서 ‘대응분석’이라는 걸 한다. 20대는 트위터, 50대는 라인을 가장 많이 이용한다는 뜻이다. 어디에 광고를 낼지 기업이 검토할 때 도움이 된다.
또 의학에도 많이 사용한다. A약을 복용한 사람과 B약을 복용한 사람의 데이터를 비교해 어느 약이 잘 듣는지 판단할 때 이용하기도 한다. 그런 목적으로 쓰이는 분석기법은 통계학 입문서에서 많이 소개하는 ‘통계적 가설검정’이다.

데이터 분석 전문가는 뭘하는 사람인가
분석의 천재가 데이터를 물끄러미 바라보다가 영감을 받아서 ‘좋아, 이 방법으로 하자!’라고 하는 모습을 상상하면 안 된다. 클라이언트와 협의해서 분석의 목적을 명확히 하거나 목적에 맞는 분석기법을 모색하거나 데이터에 비정상적인 값이 섞여 있지 않은지 분석하는 등 착실하게 꾸준히 일하는 느낌이다. 여기서 주의할 점은 외부에 데이터 분석을 맡긴다고 해서 반드시 뛰어난 결과를 얻는다는 보장은 없다. 오히려 안 좋은 의미에서 충격을 받을 수도 있다.
56개 점포로 구성된 프랜차이즈 커피점이 정밀한 중회귀식 도출을 맡겼다고 하자. 그 결과물인 중회귀식에 ‘가장 가까운 역으로부터의 도보 시간’이 포함되지 않았다면 어떨 것 같은가. 매출을 분석할 때 ‘가까운 역으로부터의 도보 시간’을 고려하는 것은 커피업계의 상식이지만 분석을 의뢰받은 사람이 그 점을 알고 있다고 단언할 수는 없다. 분석 전에 협의를 충분히 하지 못하면 이와 같은 비극이 발생할 수 있다. 데이터 분석 업체는 분석의 전문가이지만 모든 비즈니스의 세부 사항에 정통한 것은 아니다.

데이터 사회를 살아가기 위한 생존술
‘즐겁게 통계학을 배우고 싶다!’는 얄팍한 속셈은 초전박살 나다
수포자도 한 권을 끝까지 읽을 수 있는 책!!
어느 날, 출판사 편집자로부터 ‘재미있는 기획이 있다’고 저자에게 호출이 왔다. 담당 편집자는 문과 출신도 이해할 수 있는 통계학 입문서를 만들고 싶다. “통계학은 왠지 편리할 것 같지 않나요? 글쎄요, 구체적으로 뭐가 편리하냐고 말씀하면 설명할 순 없지만요.” 상상하신 대로 담당 편집자도 문과 출신이었다. 그런 문과 출신 둘이 기획을 해서 대단한 지혜가 떠오를 리 없다. 이에 후일 이 책의 선생님으로 등장하는 다카하시 씨를 만나 회의를 해봤다. 참고로 다카하시 씨는 베스트셀러 《만화로 쉽게 배우는 통계학》의 원작자로 유명한 통계학자이자 저술가이다.

문과 출신 저자와 통계학의 대가의 대화
“통계학 입문은 수학을 못하는 사람이 보기에는 전혀 입문 같지 않아요. 아예 시작할 엄두가 안 나요.”
“아, 그건 시중에 나와 있는 입문서는 대학에서 처음 배우는 사람을 위한 것이니까요. 고교 수학을 알고 있다는 전제하에 풀어나가기 때문에 중-고등학교 수포자가 이해하는 건 무리죠.”
“그, 그렇게 통계학이 어려운가요!?”
“통계학은 원래 수포자를 대상으로 한 게 아니에요.”
“그렇다면… 수학의 기본 단계에서 좌절한 저희 같은 사람들은 이해를 못할까요?”
“알기 쉽게 말하자면, 운동을 못하는 사람이 프로레슬러 도장 문을 두드리는 것과 같아요.”
“으윽! (얼굴이 빨개짐) 하지만 시중에는 《한 권으로 비즈니스에 써먹을 수 있는 통계학!》 같은 책도 있잖아요. 그러니까 이번 기획도 그런 느낌으로 만들 수 있지 않을까요…….”
“아니, 한 권으로 배울 수 있을 리가 없죠(쓴웃음). 학문을 그렇게 우습게 보면 안 됩니다.”
“그러면, 아무튼, 수포자를 위한 통계학을 알기 쉽게 전반적으로 설명해주실 수 없을까요? 책을 두 권으로 만들어도 됩니다(웃음).”
“알기 쉽게, 라는 건 차치하고, 통계학은 여러분이 상상하는 것보다 훨씬 방대해요. 그러니 전반적으로 설명하려면 10권을 만들어도 안 됩니다.”
“그런가요…… (눈물)”
“그렇게 울상 하지 말아요. 물론 통계학 내용 중에는 수포자도 현대인의 교양으로써 알아두면 좋은 것도 있어요. 통계학은 쉽지 않다는 것도 그중 하나겠지요(웃음). 그럼, 조금 시간을 내어 수포자도 한 권을 끝까지 읽을 수 있는 수업으로 구성해보죠.”
*
수포자들에게 통계학은 ‘가까이하기에는 너무 먼 학문’이라는 인식은 바뀌지 않았지만 그 세계를 잠깐이라도 들여다봄으로써 엄청나게 많은 것을 얻을 수 있었다. 저자와 같은 문과 출신도 이 책을 통해 통계학의 세상을 들여다볼 수 있기를 기대한다!

댓글()