IT/빅데이터 분석

R을 활용한 빅데이터 분석 (기초 함수 사용하기, 패키지 사용하기)

모아 2021. 3. 15. 22:54
반응형

오늘은 R 스튜디오를 활용하여,

1. 함수 이해하기 + 기본 함수 사용하기 (mean, max, min)

2. 패키지 이해하기 + 기본 패키지 사용하기 (ggplot2)

중고등학교 수학시간에 우리는 함수에 대해서 배웠을 겁니다.

기억을 떠올려보면 마법상자에 어떤 숫자를 넣으면 로직에 따라서 새로운 결과값을 산출하는 것이 함수라고 배웠습니다.

F(x) 라고 표기 했었죠?

 

데이터과학에서 특히 R 스튜디오에서 함수를 이해하는 것은 매우 중요합니다.

데이터 분석 과정에서 대부분은 함수를 이용해 변수를 조작하는 일이라고 할 정도로 다양한 함수가 사용됩니다.

어쩌면 R 스튜디오를 독학하는 분들에게 가장 좋은 공부방법은 

함수 중심으로 익히고 실습하면 데이터를 바라보고, 어떤식으로 분석해야할지 가장 빠르게(?) 실력이 늘 수 있는 

방법이라고 감히 말씀드릴 수도 있겠네요.

이정도로 데이터 과학에서 함수는 중요합니다.

 

오늘은 이런 함수에 대해 아주 기초적인 부분만 다루고, 앞으로 조금씩 함수에 대해서 다뤄보도록 하겠습니다.

사실 하루만에 그 많은 함수를 다 다룰 수도 없습니다.

R에서 사용하는 함수는 '함수 이름' 과 '괄호'로 구성되어 있습니다.

우리가 앞에서 한번 살펴보았던 c() 함수를 기억하시나요?

moa-study.tistory.com/69?category=917716

 

R을 활용한 빅데이터 분석 (여러값으로 구성된 변수 만들기, 문자 변수 만들기, 주석 생성, 환경

오늘은 R 스튜디오를 활용하여, 1. 여러값으로 구성된 변수 만들기 2. 문자로 된 변수 만들기 3. 몇가지 꿀팁 R 기능을 소개하겠습니다. 지난시간에는 간단한 상수 변수 만들기를 배웠습니다. moa-st

moa-study.tistory.com

1. 함수 이해하기 + 기본 함수 사용하기 (mean, max, min)

가장 기본적으로 사용되는 mean (평균) 함수를 사용해 보겠습니다.

X 라는 변수에 (1, 2, 3, 4, 5) 5개의 값을 만들었습니다.

여기서 mean(X) 를 입력하였는데 이는 "X 변수 값들의 평균은 무엇이니?" 입니다.

평균을 구하는 방법은 다들 아시겠죠? 여기서는 중요한 이슈는 아니니 넘어가도록 하겠습니다.

이외에 

median (중앙값)

range (범위)

quantile (사분위)

max (최대값)

min (최소값)

var (분산)

sd (표준편차)

등등 훨씬 많은 함수들이 존재합니다.

함수에 만들어 놓은 변수들을 집어 넣으면, 값들이 나오게 됩니다.

 

*** 빅데이터 분석가의 생각 ***

공부하실 때, 평균, 분산, 중앙값 등등 여러가지 함수를 보실 수 있을겁니다.

제가 추천 드리는 방법은 단순히 책을 보고, 그 값들을 따라 치고 끝내는 것보다 공식을 같이

이해해 주는 것이 좋습니다.

혹시 전공자가 아니라서 수식에 대해서 잘 모르신다면, 유투부나 블로그에 요즘 이해를 돕기위한

쉬운 예제들도 많으니 아주 기초적인거라도 보시면서 R 코딩을 익히시는 걸 추천드려요.

절대!! 절대!! 기초 통계 부분 어렵지 않습니다.

왜 이런 방법을 추천드리냐면, 데이터 과학을 깊하게 공부하시다 보면 의사결정나무, 랜덤포레스트 등 

수학적, 통계적 깊은 이해를 바탕으로 하는 알고리즘을 다룰 일이 많이 있습니다.

여기서 최소한으로라도 데이터 마이닝 알고리즘을 이해한 사람과

단순히 R 코딩을 어떻게 사용하는지 익히기만 한 사람은 데이터 분석의 결과물이 상당히 차이가 나는 점을 

많이 봐왔습니다. 

기초 단계부터 이런 습관을 들이면 좋다는 점! 말씀드립니다.

 

2. 패키지 이해하기 + 기본 패키지 사용하기 (ggplot2)

패키지는 앞서 배운 함수가 들어 있는 여러가지 꾸러미라고 생각하시면 됩니다.

R에서는 그래프를 만들고, 텍스트 데이터를 분석하고, 머신러닝 알고리즘을 구현하는 등 다양한 기능을 

하는 함수를 이용할 수 있습니다. 

함수를 이용하면 먼저 함수가 들어 있는 패키지를 설치하고 불러들여야 합니다.

(패키지 사용방법)  패키지 설치하기 -> 패키지 로드하기 -> 함수 사용하기

패키지는 한 번만 설피하면 되지만, 패키지를 로드하는 작업은 R 스튜디오를 새로 시작할 때마다 

반복해야 합니다. 만약 로드하지 않은 상태에서 함수를 실행하면 에러 메시지가 출력됩니다.

 

간단한 패키지 설치 및 함수 사용에 대한 설명만 드리도록 하겠습니다.

다음처럼 install.packages("ggplot2") 을 입력하고 ctrl + enter 를 입력하면 ggplot2 패키지 파일이 설치가 됩니다.

그 다음으로 library(ggplot2) 를 입력하면 앞서 설치한 패키지 ggplot2를 로드합니다.

이때 확인하셔야 할 부분은 install 할때는 " " 큰 따옴표를 붙여 패키지 명을 썼지만,

library로 로드할때는 " " 큰 따옴표를 붙이지 않았다는 점!!

 

간단하게 ggplot2 패키지 안에 qplot 이라는 함수를 예를 들어 보여드리고 마치겠습니다.

y라는 변수에 a 2개, b 1개, c 3개 문자 변수를 생성하였습니다.

그리고 ggplot2 안에 있는 패키지 안에 있는 qplot이라는 함수를 y 변수에 적용시키면 다음과 같이 빈도가 나타납니다.

지금 다룰 것은 아니니까 나중에 '시각화' 를 주제로 다시 말씀드리겠습니다.

다시 한번 강조하지만 R은 연습 많이 하셔야 늡니다.

귀찮아 하지마시고 많이 두들겨 보세요! 

반응형