본문 바로가기
  • 행복의 유효시간은 바로 지금입니다~
카테고리 없음

데이터 과학 입문서 소개, 처음 배우는 데이터과학(한빛미디어)

by 해피이즈나우 2020. 12. 4.
반응형

데이터 과학 입문서 소개, 처음 배우는 데이터 과학(한빛미디어)

 

 

데이터 과학은 최근에 각광받는 직업분야인데요.  

데이터 과학에 대한 개념파악을 하고 싶어서 한빛미디어 '나는 리뷰어다'로 신청했는데, 도착하자마자 읽어 봤습니다.

 

위키백과에 나와있는 내용을 보니 '데이터 과학(data science)이란, 데이터 마이닝(Data Mining)과 유사하게 정형, 비정형 형태를 포함한 다양한 데이터로부터 지식과 인사이트를 추출하는데 과학적 방법론, 프로세스, 알고리즘, 시스템을 동원하는 융합분야이다'라고 말하고 있습니다.

 

'처음 배우는 데이터 과학'의 저자, 필드 케이디는 데이터 과학을 다음과 같이 정의를 내리고 있습니다.

'데이터 과학은 소프트웨어를 개발하여 뭔가를 분석하는 작업입니다.

데이터 과학은 통계학과 경영학과 비슷하게 느껴질 수 있지만, 여기에 소프트웨어 개발을 가미시킨 것이라고 보면 될 것 같습니다.

 

데이터 과학을 전문적으로 하는 사람은 수학, 통계학적인 지식이 있어야 하고, 소프트웨어적인 기술을 가지고 있는 사람을 말하는 것입니다.

 

데이터 과학 입문서, '처음 배우는 데이터 과학'에 대한 리뷰를 적어 보겠습니다.

 

통계, 수학, 머신러닝, 프로그래밍까지 데이터 과학자를 꿈꾸는 히치하이커를 위한 최고의 데이터 과학 입문서

'처음 배우는 데이터 과학'

 

저자 필드 케이디

옮긴이 최근우

출판일 초판 2018년 2월, 3쇄 2020년 1월

출판사 한빛미디어

가격 28,000원

 

 

데이터 과학은 위에서 정의한 것처럼 다양한 분야를 광범위하게 포함하고 있습니다.

처음 데이터 과학을 접하는 사람이라면 어디서부터 시작해야 할지 난감할 수밖에 없는데요.

 

이 책은 이런 분들에게 가벼운 마음으로 입문할 수 있는 책이라고 보면 될 것 같은데요.

프로그래밍, 통계, 빅데이터, 머신러닝을 모두 담았다고 보면 되겠습니다. 

 

제4차 산업혁명 시대의 키워드 중 빅데이터는 그 중요성이 날로 커지고 있는데요.

그 빅데이터를 다루는 데이터 과학이야말로 앞으로 4차 산업혁명의 유망한 직업이 될 것으로 보입니다.

 

말 그대로 데이터 과학자가 알아야 하는 거의 모든 것을 배울 수 있는 책으로 실무에 필요한 컴퓨터공학 및 프로그래밍(파이썬)을 자세히 소개하고 있고, 머신러닝 알고리즘에 대한 직관적 설명, 수학적 배경, 실제 사례 등으로 구성되어 있습니다.

 

데이터 과학에서 필수인 시각화 방법과 도구, 데이터를 해석하는데 필요한 확률과 통계까지 다루고 있으며 데이터 과학업무 결과를 정리하는 노하우까지 소개하고 있습니다.

 

책에서 방대한 내용을 담고 있기 때문에 데이터 과학에 대한 개념을 제대로 파악할 수 있고, 체계적으로 학습할 수 있는 프로그래밍 예제까지 담고 있는 것이죠.

 

저자는 정확한 통계 모델을 세우고 소프트웨어로 구현할 줄 알면서 사업에 대한 감각까지 갖춘 사람을 '유니콘(전설의 동물로 모든 걸 다 갖춘 사람을 찾기 어렵다는 의미)'이라 부르고 있습니다.

이 책은 어떻게 유니콘이 될 것인지를 알려주는 책이라고 보면 될 듯하네요.

 

처음 배우는 데이터 과학은 목차만 12페이지로 구성되어 있습니다.

데이터 과학을 하는 사람들이 알아야 할 내용을 거의 대부분 담기 위해 목차도 많고, 내용도 420여 페이지에 이르고 있습니다.

 

데이터 과학의 기본기를 튼튼하게 다지고 싶은 사람, 데이터 과학의 특정 주제를 알고자 하는 사람, 데이터 과학 프로젝트를 시작하는 사람들이 읽으면 좋은 책입니다.

 

저자 필드 케이디(Field Cady)는 앨런 인공지능연구소에서 데이터 과학자로 일하고 있고, 대학에서는 수학과 물리학을 전공했습니다.

그동안 데이터 과학뿐만 아니라 빅데이터 컨설팅까지 진행하며 그의 현업에서의 노하우를 접할 수 있는 책이기도 합니다.

 

옮긴이 최근우는 영국에서 디지털음악을 전공하고 버즈뮤직에서 딥러닝을 연구하고 있다고 합니다.

그의 딥러닝 경력으로 독자들이 데이터 과학에 대해서 알기 쉽게 정리한 부분은 빠르게 이해하기 쉽게 구성되었다고 볼 수 있겠습니다.

 

처음 배우는 데이터 과학의 개발환경은 SQL을 쓰는 특정 언어를 제외하고는 대부분 파이썬 3.4를 기준으로 작성되었습니다.

파이썬은 데이터 과학에서 독보적인 지위를 가지고 있고, 무료로 사용이 가능하며 범용언어라 어떤 작업에서도 무난하게 사용할 수 있는 장점이 있기 때문이라고 합니다.

 

 

처음 배우는 데이터 과학은 총 3부로 이루어져 있는데요.

각 장을 따로 읽어도 되도록 구성이 되어 있습니다.

 

1부. 데이터 과학 필수요소에서는 현업에서 분야를 막론하고 거의 모든 경우에 사용하는 데이터 과학의 가장 핵심적인 내용을 다루고 있어, 간단한 데이터 과학 지식이 필요한 사람들이 읽으면 유용한 내용들입니다.

 

2부. 데이터 과학 확장팩에서는 데이터 과학의 핵심적인 부분을 좀 더 심층적으로 다루고 있습니다.

데이터 과학자라면 자세히 읽으면서 습득해야 할 내용으로 구성되어 있는 것이죠.

 

3부. 데이터 과학 특수분야에서는 필수는 아니지만 알아두면 좋은 기법을 다루었습니다.

1, 2부에서 다룬 내용 중 일부를 더 깊게 살펴보는 부분이네요.

 

제1부는 데이터 과학 필수요소

 

데이터 과학에 대한 소개와 프로그래밍 언어, 데이터 먼징, 시각화와 대푯값, 머신러닝 개요, 특정값 추출, 머신러닝과 분류, 의사소통과 문서화에 대한 내용을 담고 있습니다.

 

데이터 과학자라면 반드시 알아야 할 핵심내용을 다루고 있어서 데이터 과학자가 아니더라도 데이터를 다루는 직업에 있는 사람들이라면 이런 주제 정도는 읽어 줄 필요가 있습니다.

 

큰 그림으로 보는 데이터 과학

 

주어진 문제를 파악하고 사업면에서 어떤 문제가 있는지, 그걸 어떻게 공학적인 문제로 풀 수 있을지 정의합니다.

실제 데이터를 들여다보며 문제해결에 필요한 정보와 그걸 어떻게 활용할지 알아냅니다.

 

그리고 특정값을 추출하고, 이 특징값을 도구를 이용하여 수행하고, 이를 이용해 결과를 도출해 내는 작업입니다.

 

이러한 전체적인 데이터 과학 전체적인 내용을 파악하는 내용들로 구성이 되어 있습니다.

 

제2부. 데이터 과학 확장팩

 

데이터 과학을 하기 위해서 필요한 내용을 소개하고 있습니다.

군집화와 차원 축소의 비지도 학습, 회귀, 데이터 인코딩과 파일 형식, 빅데이터, 데이터베이스, 좋은 프로그래밍 습관 기르기, 자연어 처리, 시계열 데이터 분석, 확률, 통계, 프로그래밍 언어의 주요 개념, 알고리즘의 성능과 메모리 관리 등에 관한 내용들입니다.

 

내용이 다양하고, 범용적으로 쓰이는 프로그래밍의 깊은 개념까지 다루고 있어서 데이터 과학자로 가려만 반드시 알아야 할 내용들로 구성이 되어 있습니다.

 

제3부. 데이터 과학 특수분야

 

3부는 데이터 과학의 고급단계로 최신 연구가 진행되고 있는 부분까지 다루고 있고, 데이터 과학에서 만날 일이 없는 주제까지 다루고 있습니다.

 

컴퓨터 메모리와 자료구조, 최대 우도 추정과 최적화, 고급 분류기, 확률 과정 등에 대해서 설명을 하고 있는데, 딥러닝이 좋은 예입니다.

 

당장은 필요 없을 수도 있지만 저자는 데이터 과학에서 일반적인 방법이 통하지 않을 때 큰 도움이 될 수 있는 내용들이라고 하네요.

 

 

처음 배우는 데이터 과학, 

데이터 과학이 무엇인지, 그 데이터 과학에 대한 기본적인 개념부터 실제 프로그래밍 기법까지 폭넓게 배울 수 있는 책입니다.

제4차 산업혁명을 대비하기 위한 데이터 과학이 기본기를 배우고 싶거나, 데이터 과학의 특정 주제에 대해서 공부하고 싶은 사람, 데이터 과학자가 되고 싶은 사람들에게 추천할 만한 책입니다.

 

앞으로 20여 년이 지나면 통계학, 데이터 과학, 머신러닝이 합쳐져서 큰 분야를 이룰 거라는 저자의 이야기처럼 새로운 학문 분야로 자리매김을 할 것으로 보이는데요.

빅데이터에서 유니콘이 되는 훌륭한 데이터 과학자가 우리나라에도 많이 배출되었으면 좋겠습니다.

 

감사합니다.

 

반응형

댓글0