빅데이터 시대에 어울리는 책이 출판되었다. 김용대 교수(서울대 서울대학교 통계학과 및 데이터사이언스대학원 데이터사이언스학과)의 <데이터 과학자의 사고법>이다. 오하이오주립대학교에서 통계학으로 박사학위를 받고, 미국보건연구소 연구원(1997~1999)을 지낸 뒤 한국 대학에서 ‘생존분석’, ‘베이지안 방법론’, ‘데이터마이닝’, ‘기계학습’, ‘딥러닝’ 등을 연구하고 있다. 2020년부터 한국데이터마이닝학회장을 맡고 있다.
차곡차곡 쌓인 데이터는 이제 기업에게는 이윤을, 국가에는 안정된 세상을 약속하고 있다. 어떤 데이터? 세상의 모든 현상들에 대한 데이터이다. 김용대 교수는 이 복잡하고, 무겁고, 잔뜩 쌓인 수치들에 얽힌 이야기를 다양한 사례를 통해 독자에게 흥미롭게 전달해 준다.
오늘날의 지구는 모든 것이 복잡해지고, 그만큼 불확실하다. 그래서 더욱 통계와 확률로 구성된 ‘데이터과학’에 관심을 기울이게 된다.
저자는 ‘데이터’와 ‘데이터의 분석’이 필요한 이유를 1장부터 보여준다. 코로나가 지구를 휩쓸기 전에 수많은 역병이 인간을 전멸의 위기로 몰아넣었다. 그중 하나가 19세기 영국에서 발병한 콜레라이다. 1832년과 1849년 런던을 휩쓴 콜레라로 1만 4137명이 사망했다고 한다. <올리버 트위스터>를 본 사람이라면 그 판자촌 빈민가 모습을 연상할 수 있을 것이다. 물론 빈민가만 피해를 본 것은 아니다. 지금은 ‘콜레라’가 수인성 전염병, 즉 ‘물’이 중요한 매개체란 것을 잘 알고 있었지만 그 때는 그것을 몰랐다. 수많은 사람이 희생당해도 오직 공기로 전염되는 나쁜 병이라 생각하고, 물청소를 이어갔다. 그 물은 런던의 온갖 시궁창 물이 템스강에 모이고, 그 물이 식수로 사용되는 것이었다. 이때 존 스노 박사가 사망자를 조사하기 시작했다. 어디 사는 누가, 무엇을 먹었는지 조사하며 역병의 연결고리를 찾은 것이다. 존 스노 박사는 ‘역학의 시초’로 평가받는다. 코로나 시대에는 이제 역학조사가 기본이다. QR코드까지 등장하였고 말이다. 저자는 데이터과학의 유용성에 대해 설명하면서 글로벌 제약회사의 백신개발의 예를 들었다. 신약 개발에 천문학적 연구개발비가 드는 이유와 안전성을 담보하기 위한 처절한 노력을 이해할 수 있다. 물론, 그 기반은 철저한 데이터 분석임을 말할 것도 없다.
<데이터 과학자의 사고법>에는 다양한 데이터 분석의 사례가 나온다. 미국 배심원단 선정방식, 로또 당첨의 비결, 2년차 징크스의 과학적 분석, 술 취한 사람의 갈지자 행보 예상하기, 선거에 이용되는 데이터 과학 등 우리 실생활에서 광범위하게 활용되는 빅데이터 활용법을 만나볼 수 있다. 데이터 과학자들은 ‘머피의 법칙’도 설명가능하다. 왜 내가 기다리는 그 272A번 시내버스만 늦게 오는지도 설명 가능하단다.
물론, ‘빅데이터 시대’에는 유튜브 추천영상 알고리즘, 쿠팡 물류배송, 편의점 상품 진열의 방식까지 변화시킨다. 그런 알고리즘을 이해한다는 것은 꽤나 흥미로운 일이다.
김용대 교수는 데이터과학이 세계와 우리의 삶을 얼마나 바꿔나갈 수 있는지 이야기한다. 동시에 데이터는 왜곡과 조작에 매우 취약할 뿐 아니라 같은 데이터를 어떻게 분석하느냐에 따라 전혀 다른 해석이 나온다는 사실을 덧붙인다.
코로나 시대를 거치면서, 재택근무가 늘면서, 홈쇼핑 이용이 폭증하면서 ‘빅데이터’는 새로운 세상의 규범을 계속 만들어나갈 것은 확실해 보인다. (KBS미디어 박재환)
데이터과학자의 사고법
저자:김용대
출판사: 김영사 396 쪽