IT/빅데이터 분석

R을 활용한 빅데이터 분석 (데이터 프레임(Data Frame) 만들기)

모아 2021. 3. 19. 21:32
반응형

오늘은 R 스튜디오를 활용하여,

데이터 프레임 만들기 를 해보겠습니다.  사용하는 함수 : Data.Frame( )

 

데이터 프레임(Data Frame)은 행과 열로 구성된 사각형 모양의 표 입니다.

열은 위에 파란색으로 표시된 부분으로서, 보통 분석을 할때 성별, 연령, 이름, 학점, 주민등록번호 등이 작성됩니다.

행은 보통 사람을 구분하는데 사용됩니다.

예를 들어 

A, B, C 라는 사람 3명의 특징을 각각 이름, 연령, 성별, 주민등록번호로 구분하였다면

행은 3개가 되고, 열은 4개가 됩니다.

열은 컬럼(Column) 또는 변수(Variable) 라고 불리며

행은 로(Row) 또는 케이스(Case) 라고 부릅니다.

 

이제 R을 이용해서 이런 데이터 프레임 형태의 데이터를 생성해보겠습니다.

다음과 같은 데이터 프레임을 만들어 보겠습니다.

이름 영어점수 수학점수
A 90 100
B 80 90
C 85 70
D 80 85

 

앞서 배운 상수변수 만들기를 사용합니다. (기억이 안난다면 아래 내용을 참고하세요)

moa-study.tistory.com/69?category=917716

 

R을 활용한 빅데이터 분석 (여러값으로 구성된 변수 만들기, 문자 변수 만들기, 주석 생성, 환경

오늘은 R 스튜디오를 활용하여, 1. 여러값으로 구성된 변수 만들기 2. 문자로 된 변수 만들기 3. 몇가지 꿀팁 R 기능을 소개하겠습니다. 지난시간에는 간단한 상수 변수 만들기를 배웠습니다. moa-st

moa-study.tistory.com

 

english <- c(90, 80, 85, 80) 으로 

english 라는 그릇에 90, 80, 85, 80 점수를 차례대로 담았습니다.

math 도 마찬가지로 (100, 90, 70, 85) 점수를 답았습니다.

 

이제 두 변수를 이용하여 데이터 프레임을 만들어 보겠습니다. 

사용되는 함수는 data.frame( ) 입니다.

만들어진 결과를 살펴보면, data.frame 이라는 함수안에 만들어 놓은 영어, 수학을 차례대로 넣고 

Ctrl + enter를 입력하면 df 라는 데이터 프레임이 생성됩니다.

아까 만들려고 한 표에서 이제 이름만 만들면 되겠죠?

기존에 만들어 놓은 df 라는 데이터 프레임에서 앞쪽에 이름을 새로 추가하여 데이터 프레임에 넣도록 하겠습니다.

먼저 이름 변수를 만들어주세요!!

이때 주의해야할 점이 예제처럼 " " (큰 따옴표)를 하지 않으면 에러가 납니다.

name 변수를 생성하였다면, 아까 만들어 놓은 df 앞에 이름 변수를 넣도록 하겠습니다.

이제 데이터 프레임 만드는 방법을 배웠습니다.

보통은 이런 데이터 프레임이 만들어져 있는것을 R에서 불러오는걸 주로 하겠죠?

데이터 프레임을 만드는건 이해를 돕기 위한 예제일 뿐입니다.

 

이렇게 만들어진 데이터를 앞에서 배운 평균(Mean) 함수를 이용해 수학점수와 영어점수의 평균을 구해보겠습니다.

moa-study.tistory.com/73?category=917716

 

R을 활용한 빅데이터 분석 (기초 함수 사용하기, 패키지 사용하기)

오늘은 R 스튜디오를 활용하여, 1. 함수 이해하기 + 기본 함수 사용하기 (mean, max, min) 2. 패키지 이해하기 + 기본 패키지 사용하기 (ggplot2) 중고등학교 수학시간에 우리는 함수에 대해서 배웠을 겁

moa-study.tistory.com

여기서 df_name$math 라는걸 사용할텐데, $모양의 주목해 주세요.

앞서 만든 df_name을 입력하고 $를 작성하면 아래처럼 name, english, math 가 나타납니다.

이는 우리가 만든 데이터 프레임의 변수 3가지를 나타내는 것입니다. R 스튜디오에서는 직접 입력하는 수고를 덜기위해

데이터 프레임의 $를 붙이면 그 변수들을 자동으로 넣을 수 있게 나타내줍니다.

이제 math를 선택하여 실행하면 다음의 결과를 얻을 수 있습니다. (english도 직접 해보세요)

앞에서 설명한 바와 같이 데이터 프레임을 직접 만들일은 R을 사용하면서 거의 없을 것입니다.

그래도 직접 데이터 프레임을 만들면서 구조를 익히는 시간을 가졌던 것은

데이터 프레임을 우리가 앞으로 정말 많이 사용해서 입니다.

오늘도 R 스터디를 함께 해주셔서 감사합니다.

반응형