IT/빅데이터 분석

빅데이터 분석을 위한 최적화 분석 프로그램 R 소개 (R 특징, 추천 교재 등)

모아 2021. 1. 10. 21:16
반응형

R은 데이터 분석가들이 가장 많이 사용하는 데이터 분석 전문 도구입니다. R은 데이터 분석하는 데 있어 범용 분석 툴이기 때문에 R을 통해 데이터의 정제, 데이터 형태 변화, 통계, 시각화 분석, 데이터 마이닝 등을 할 수 있습니다.

R의 특징

1) R프로그램은 무료이다.

무료로 사용할 수 있는 소프트웨어뿐 아니라, 분석 알고리즘 (패키지) 등을 자유롭게 사용하고 변화시킬 수 있습니다.

분석에 사용된 소스 코드들도 다방면으로 공개되어 이를 활용하여 상업화하는데 활용할 수 있습니다.

 

학부 데이터 분석 수업 때 주로 SASSPSS 프로그램을 사용하였습니다. 아마 교육용으로 배포되어 무료로 사용했었지만, 따로 사용하기 위해서는 유료로 사용해야 합니다.

 

2) R프로그램은 배우기 쉽다

배우기 쉽다는 말은 누구나 바로 R프로그램을 통해 금방 데이터 분석을 해낼 수 있다는 이야기는 아닙니다. 배울 수 있는 컨텐츠가 많이 존재한다는 뜻입니다.

 

대학원에서 뒤늦게 R프로그램을 접하였고, 1년간은 논문, 공모전 등등 다양한 데이터 분석을 위해 연구하고, 에러코드를 잡기위해 노력을 많이 하였습니다.

 

그래도 SASSPSS보다 시중에 훨씬 많은 교재와, 동영상 강의가 존재하고, 더욱더 좋았던 점은 구글에 검색만 해보면 내가 원하는 데이터 분석 소스코드부터 에러 상황들을 해결해주는 자료들이 널렸다는 점입니다.

개인적으로 R 프로그램을 익히기 좋은 교재들을 몇 권 추천드리겠습니다.

 

- 쉽게 배우는 데이터 분석 R

- 통계와 R을 함께 배우는 R까기2 : R 입문용 (느린생각) 

 

- R을 활용한 기계학습 : 데이터 분석을 위한 머신 러닝 이론과 적용 (에이콘출판사) 

 

제가 33년 전에 공부했던 교재이기 때문에 요즘은 더 좋은 책들이 나와있을 수 있습니다. 그래도 이 3권을 추천드리는 이유는 이 순서대로 공부하면서 R을 활용한 데이터 정제, 통계, 머신러닝 등을 차례로 어렵지 않게 배울 수 있어서 이 순서로 공부하는 것을 추천드립니다.

 

[쉽게 배우는 데이터 분석 R] R프로그램을 전혀 모르는 상태에서 교재 보면서 따라만 해도R이 빅데이터 분야에서 어떻게 활용되는지 훑을 수 있었습니다.

 

[R까기2]는 빅데이터 분석을 하는데 필요한 통계 지식을 단기간 내에 채득 하고,, 재밌는 예제를 통해 데이터 분석의 유의미한 결과를 도출하는 점이 재밌는 교재입니다.

 

마지막으로 [R을 활용한 기계학습] 이란 책은 의사결정나무, 인공신경망 등 데이터마이닝 과정을 분석 기법 하나하나 이해하기 쉽게 설명하면서 R코딩을 가능하게 해주었습니다.

단순히 R 소스코드만 불러와 사용해본다면 나중에 아무 의미 없는 데이터를 분석하고자 할 때 어떤 분석알고리즘을 사용해야 할지 난감할 때가 많을 것인데,, 분석 기법에 대한 이해를 바탕으로 학습한 뒤 캐글이나 공모전 제공 데이터를 접했을 때 분석 기법을 선택하는데 수월했었습니다.

 

3) R프로그램은 광범위한 오픈소스 생태계를 가지고 있다

오픈소스 생태계란 소스코드가 무상으로 공개되어 누구나 수정하고 재배포할 수 있는 환경을 말합니다. 마치 과거에는 요리하는 것을 많은 사람들이 어려워했지만, 백종원 선생님의 등장으로 모든 사람이 백선생님의 요리 레시피를 따라 하며 쉽게 요리하는 것과 같은 이치라고 생각합니다.

아마 이런 점 때문에 SAS, SPSS 같은 상용 소프트웨어보다 R이 급격히 성장했던 원동력이 아니었을까 생각합니다.

SAS, SPSS는 데이터 분석에 대한 새로운 기법이 등장하여도, 프로그램 제작사 쪽에서 버전을 업데이트해주지 않으면 사용할 수 없습니다.

하지만 R은 새로운 분석 기법이 등장하면 며칠 내로 패키지가 업로드되어 다운로드만 하여 사용할 수 있습니다.

 

참고로 R 사용자들이 패키지를 만들어 공유하는 사이트인 CRAN에는 몇만 개가 넘는 패키지가 공개되어 있으며 요즘은 정형 데이터뿐 아니라 이미지, 텍스트, 동영상 등과 같은 비정형 데이터를 분석할 수 있는 기법들도 다양하게 업로드되고 있습니다.

 

빅데이터 분석은 트렌드의 민감합니다. 분석 기법은 갈수록 정교해지고, 조금 더 복잡했던 분석과정을 얼마나 쉽게 단순화시키는 기법 또한 발전하고 있습니다. 그렇기 때문에 분석 기법에 대한 다양한 소스코드를 구할 수 있는 거대 생태계는 데이터 과학자에게 매우 중요한 요소이고 이런 점이R을 선호하는 이유일 것입니다.

 

4) R프로그램은 다양한 시각화 구현이 가능하다

실제로 데이터 분석으로 프로젝트나 공모전을 해본 경험이 있다면 시각화가 얼마나 중요한지 알 수 있습니다.

수치로 된 자료, 전문가들만 알 수 있는 요약자료 등을 분석 결과로 보였을 때 힘들게 분석한 결과를 상대방이 이해를 못하는 경우도 자주 발생합니다. 시각화는 그만큼 내가 분석한 결과를 심플하고, 파워플하게 보여줄 수 있는 분석 기법의 하나라고 생각합니다.

 

다양한 분석 프로그램들도 시각화 기능은 가지고 있지만 조작이 복잡하거나, 분석 결과를 잘 반영하지 못하는 결과를 내기도 하는데 R은 정말 다양하게 그래프로 표현할 수 있습니다.

반응형