일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- tidyverse
- 카페
- 꺽은선
- 재테크
- t-test
- 그리기
- 설치
- r
- 내돈내산
- R studio
- 변경
- ggplot2
- 막대그래프 꾸미기
- R 기초
- ggplot
- 분산분석
- 사진
- T검정
- Shutterstock
- 제주도민맛집
- 산점도
- 제주살이
- bar graph
- Endnote
- agricolae
- 맛집
- 돈벌기
- 막대그래프
- 티스토리
- 제주여행
- Today
- Total
목록r (13)
Statti

상관분석(Correlation Analysis)이란 두 변수가 어떤 관계를 가지고 있는지를 분석하는 방법입니다. 상관분석에서는 두 변수간의 관계의 정도를 상관계수를 이용하여 나타냅니다. 상관계수는 -1에서 +1 사이의 값을 가지며, 그 절대값이 클수록 상관관계가 크다고 할 수 있습니다. 하지만, 상관계수가 인과 관계를 나타내는 것은 아닙니다. 두 변수간의 인과관계를 알기 위해서는 회귀분석을 수행해야 합니다. R Studio에서 상관분석을 실행해보겠습니다. 이를 위해 R Studio에서 기본적으로 제공하는 mtcars 데이터를 이용하고자 합니다. 먼저, mtcars 데이터를 불러오겠습니다. 저는 이 데이터를 cars라고 명명하겠습니다. mtcars 데이터는 다음과 같이 구성되어 있습니다. 그럼 해당 변수들..

R Studio에 내장되어 있는 데이터인 iris 데이터를 불러와서 일원분산분석(one-way ANOVA)을 실행해보겠습니다. iris_data로 불러옵니다. iris 데이터는 다음과 같이 Sepal.Lenght, Sepal.Width, Petal.Length, Petal.Width, Species로 구성되어 있습니다. 따라서, Species에 따라 Sepal.Length에 차이가 있는지 분산분석을 통해 알아보겠습니다. 먼저 shapiro.test()를 통해 정규성을 만족하는지 알아봅니다. 세가지 방법으로 알아볼 수 있습니다. 각각의 Species에 대해 서로 다른 방법으로 정규성을 만족하는지 검정해보겠습니다. 가장 편한 방법을 쓰시면 됩니다. 첫번째는 subset() 함수를 이용해 iris_data에서..

저번 포스팅에서 산점도와 꺽은선 그래프를 중첩해서 그리는 방법을 알아보았습니다. 오늘은 좀 더 심화과정으로 꺽은선 그래프를 선의 색깔과 선의 모양 두개 모두를 달리해서 그려보겠습니다. 저번처럼 기상자료개방포털에서 2020년 1월의 서울과 부산의 평균 기온, 최고 기온, 최저 기온 데이터를 다운받아 이용해보겠습니다. 데이터는 다음과 같이 지역(location)과 기온(temp.type)으로 나눠서 정리해줍니다. tidyverse 패키지를 불러옵니다. library(tidyverse)를 입력해줍니다. 그 후 데이터를 불러옵니다. 저는 이 데이터를 temp_sb라고 불러오겠습니다. 그런 다음 ggplot()을 이용해 꺽은선 그래프를 그려줍니다. ggplot(데이터명, aes(x축 변수명, y축 변수명, gro..

앞서 다운받은 2020년 1월 서울의 평균 기온, 최고 기온, 최저 기온 데이터를 이용해 산점도 그래프를 그려보겠습니다. ggplot2를 이용해 산점도 그래프를 중첩해서 그리려면 다음과 같이 Temp.type 열을 만들어 분류하는 식으로 데이터를 정리해주는 것이 좋습니다. 이 데이터를 R Studio에서 불러옵니다. 저는 Temperature2라고 불러오겠습니다. 산점도 그래프를 중첩시킬 때 2가지 형태로 중첩시킬 수 있습니다. 첫번째는 색깔로 구분하는 것이고, 두번째는 점의 모양으로 구분하는 것입니다. 먼저, 색깔로 구분되는 그래프를 만들어보겠습니다. ggplot(데이터명, aex(x축 변수명, y축 변수명, color=구분할 변수명)) + geom_point()를 입력해줍니다. 입력하면 다음과 같은 ..

다음은 2020년 1월 서울의 평균 기온 데이터를 이용해 꺽은선 그래프(line graph)를 그려보겠습니다. 산점도를 그릴 때처럼 ggplot()을 이용합니다. ggplot(data=데이터명, aes(x축으로 이용할 변수명, y축으로 이용할 변수명, group=1)) + geom_line()을 입력합니다. 날짜마다 평균 기온 값이 1개이므로 group=1이라고 적어줍니다. 그러면 다음과 같은 그래프가 나타납니다. 더보기 오류 : Each group consists of only one observation. Do you need to adjust the group aesthetic? ggplot 함수를 사용하기 전에 group을 설정하지 않으면 다음과 같은 오류가 나타나면서 그래프가 제대로 만들어지지 ..

오늘은 R studio에서 산점도와 꺽은선 그래프를 그려보려고 합니다. 산점도와 꺽은선 그래프를 그릴 데이터로는 서울의 2020년 일 기온 데이터(평균 기온, 최저 기온, 최고 기온)를 이용해 보겠습니다. 기온 데이터는 기상청에서 운영하는 종관기상관측(ASOS)에서 다운받아 이용하도록 하겠습니다. 종관기상관측(ASOS)에서는 기온, 강수, 바람, 기압, 습도, 일사, 일조, 눈, 구름, 시정, 지면상태, 지면 · 초상온도, 일기현상, 증발량, 현상번호 등을 제공합니다. 종관기상관측(ASOS) 주소는 다음과 같습니다. https://data.kma.go.kr/data/grnd/selectAsosRltmList.do?pgmNo=36 기상자료개방포털[데이터:기상관측:지상:종관기상관측(ASOS):자료] Home..

R Stuido에서 문법은 오른쪽 아래 부분에 존재하는 Help창에서 확인할 수 있습니다. Help창에서 t.test를 입력하면 R Studio에서 t-test의 문법을 알 수 있습니다. Usage의 내용을 보시면 됩니다. 다른 함수를 이용하려는데 헷갈리는 부분이 있으면 이렇게 사용법을 찾아볼 수 있습니다. t.test(x, ...) t.test (x, y = NULL, alternative = c("two.sided", "less", "greater"), mu = 0, paired = FALSE, var.equal = FALSE, conf.level = 0.95, ...) 여기서 x와 y = NULL 자리에는 분석할 두 집단의 데이터 이름을 넣어주시면 됩니다. alternative는 양측검정과 단측검정..

t-test란 두 집단의 평균 사이에 유의한 차이가 있는 지 검증하는 가장 보편적인 통계 방법입니다. t-test를 사용하기 위해 만족해야되는 가정으로 3가지가 존재합니다. 1. 두 집단의 데이터가 각각 정규분포를 이루었는가?(정규분포 가정) 이때, 대표본(n≥30)인 경우에는 정규분포를 이룬다고 보고, 소표본인 경우에만 정규분포를 이루는지 확인합니다. 2. 두 집단의 데이터가 독립적으로 추출되었는가? 3. 두 집단의 분산이 동일한가?(등분산 가정) 3가지 가정을 어떻게 만족하느냐에 따라 통계 분석을 하는 방법이 달라집니다. 예시를 보여드리기 위해 다음 CSV 파일을 불러와 보겠습니다. 이 데이터는 총 30개 잎의 길이(length)와 폭(width)로 구성되어 있습니다. 이 데이터에서 잎의 길이(len..