상관계수 함수 배워 보기
실무도구 / by 박배민/유랑 / 작성일 : 2023.08.16 / 수정일 : 2023.08.17




안녕하세요! 
큐레이터 유랑입니다.  오늘은 간단하지만 실무에서 요긴하게 사용할 수 있는 상관계수 함수를 어떻게 이용하는지 그 방법을 간단히 배워보겠습니다!


엑셀 상관계수란? 

상관계수는 두 범위(변수) 사이의 ①관계 강도②방향을 측정하는 통계적 지표입니다. 구글 스프레드 시트에서는 이를 쉽게 계산할 수 있게 도와주는 함수를 제공해주는데요. 스프레드 시트 상에서 =CORREL이라고 입력하면 적용시킬 수 있고요. 한글 설명으로는 ‘피어슨 적률 상관 계수입니다’라고 나옵니다.


아래는 상관계수를 구하는 공식인데요. 
수식이 너무 복잡하고 보기만해도 어질어질하죠?

저도 그래요.





그래서 우리는 이런 공식은 눈으로 확인만 하고 다 잊어버릴게요! 
어렵고 복잡한 계산은 구글이 다 해줄 테니까요.

 

당장 실무에 필요한 기술만 익히면 되는 우리는 상관계수를 ‘어떤 두 요인 간의 연관성을 보여주는 함수’ 정도로만 외우면 될 것 같아요! 상관계수의 결과 값은 -1에서 1 사이로, 값이 1에 가까울수록 강한 양의 상관관계, -1에 가까울수록 강한 음의 상관관계, 0에 가까울수록 상관관계가 없음 의미합니다. 즉 양의 상관관계는 한 쪽이 늘어나면 다른 한쪽도 늘어나는 관계고, 음의 관계는 어느 한 쪽이 늘어나면 다른 한 쪽은 줄어든다는 뜻이죠. 아직 말로는 헷갈리시죠? 걱정마세요. 뒤에서 예시로 차근차근 배워볼 거예요.


 

공익활동가에게 상관계수가 필요한 이유

공익활동가들은 다양한 사회 문제나 이슈를 탐구하고, 이를 개선하려는 사람들이죠? 이 과정에서 데이터를 기반으로 문제의 원인과 결과, 그리고 다양한 변수들 간의 관계를 파악하는 것이 중요한데요. 상관계수가 이러한 관계를 수치적으로 파악하는 데 큰 도움을 줄 수 있어요.
 

1) 데이터 기반 의사결정: 공익활동가들은 자원이 한정적이기 때문에 효과적인 방안을 선택하고 실행하는 것이 중요합니다.  상관계수를 활용하면 어떤 요인들이 문제와 관련되어 있는지, 얼마나 영향을 미치는지를 파악하여 데이터를 기반으로 한 의사결정을 할 수 있습니다.

2) 효과 측정: 프로젝트나 캠페인의 효과를 측정할 때, 특정 활동과 결과 사이의 상관관계를 파악하여 활동의 효과를 분석할 수 있습니다.

 

상관계수 함수, 어떤 식으로 사용하지?

1. 환경 보호 캠페인의 효과: 공익활동가가 환경 보호를 위한 교육 캠페인을 실시한 후, 교육을 받은 사람들의 환경 보호 행동(재활용, 에너지 절약 등) 변화와 교육 캠페인 사이의 상관관계를 분석할 수 있습니다. 

2. 건강 교육과 지역 건강 수준: 공익활동가가 건강 교육 프로그램을 진행한 후, 지역 사람들의 건강 지표(예: 흡연률, 운동 빈도)와 교육 프로그램 사이의 상관계수를 분석하여 교육의 효과를 파악할 수 있습니다. 

3. 지역적 빈곤률과 범죄율: 공익활동가는 지역 내 빈곤률과 범죄율 사이의 상관관계를 분석하여, 빈곤이 범죄에 얼마나 영향을 미치는지에 대한 인사이트를 얻을 수 있습니다.

 

상관계수 수식 입력하기

1. 구글 드라이브에 접속하여 새로운 스프레드시트를 생성하거나 기존 스프레드시트를 엽니다. 

2. 두 데이터 집합을 각각의 열이나 행에 입력합니다. 

3. 새로운 셀에서 다음과 같이 함수를 입력합니다: =CORREL(데이터범위1, 데이터범위2) 

4. 예를 들어, 데이터 집합 A(예를 들어, 범위는 A1부터 A10까지)데이터 집합 B(예를 들어, 범위는 B1부터 B10까지의 데이터) 사이의 상관계수를 구하려면
[=CORREL(A1:A10, B1:B10)]이라고 입력합니다.

 



위 이미지를 참고 해서 수식을 입력해보세요. 참고 이미지에서는 각 행 안에 수치가 없지만, 실제 사용할 때는 각 셀 안에 수치 자료가 있어야 상관계수가 정확하게 표현됩니다. 이제 -1 ~ +1 사이의 어떤 숫자가 표시될 텐데요. 이 값이 우리 찾으려는 상관계수입니다.
 

상관계수의 해석

* 1에 가까운 값: 두 변수가 함께 증가하는 강한 양의 상관관계 (어느 한 쪽에 따라 다른 한 쪽도 증가)​ 

* 0.3 ~ 0.7 사이의 상관계수중간 정도의 양의 관계 

* 0에 가까운 값: 두 변수 사이에 거의 무관하거나 약한 상관관계 

* -0.3 ~ -0.7 사이의 상관계수: 중간 정도의 음의 관계 

* ​-1에 가까운 값: 두 변수가 상반되는 강한 음의 상관관계 (어느 한 쪽이 증가하면 다른 한 쪽이 반대로 감소)

 

 

구체적으로 이용 해보기
상관계수를 이용한 시트 두 개를 살펴 볼게요. 우선 첫 번째는 어떤 행사를 진행한 후, 참가로부터 받은 만족도를 입력한 데이터입니다. 참가자들애게 4개 항목으로 설문을 했습니다. 점수는 최소 1점, 최대 10점이었고, 구체적 설문 항목은 '전반적 만족도', '행사 구성', '다과', '기념품'입니다. 저는 여기서 '전반적 만족도'와 세부적인 내용과 어떤 관계가 있는 상관계수 함수를 입력해보았습니다.
 

함수 입력 결과, 세부 항목 중 '행사 구성'의 상관계수는 0.76, '다과' 항목은 -0.10, '기념품'의 상관 계수는 -0.43이라고 나왔습니다. 일단 우리가 위에서 '상관계수의 해석'에서 살펴본 대로라면 '다과'는 0에 가까우므로 거의 만족도와는 거의 관계가 없음을 알 수 있습니다. 다음으로 '기념품'은 -0.4대 이므로 행사 만족도와 관계가 있긴 하지만 마이너스(-)이므로, 오히려 '전반적 만족도'와는 반대의 방향을 향하고 있음을 알 수 있습니다. 마지막으로 '행사 구성' 은 0.7대로 양의 상관관계가 나타났으므로 행사의 만족도는 행사 구성과 밀접한 영향이 있는 것으로 추측할 수 있습니다.




 

셀C12에서 입력한 함수: =CORREL($B$2:$B$11,C2:C11)
셀D12에서 입력한 함수:​=CORREL($B$2:$B$11,D2:D11)

셀E12에서 입력한 함수:​=CORREL($B$2:$B$11,E2:E11)

 


두 번째 사용 사례는 어느 구에서 '범죄율에 영향을 미치는 요인'을 분석하기 위해 입력한 데이터입니다.
(아래 데이터는 설명을 위해 가상으로 만든 데이터입니다.)




구성 방식은 첫 번째 예시와 같습니다. 어느 구의 각 동의 인구 대비 범죄율을 왼쪽(주황색)에 적었습니다. 그리고 해당 동의 '빈곤율', '인구 100명 당 파출소', '지역 인구 대비 노인 인구율' 데이터를 입력하여 상관계수를 구했습니다. 일단 빈곤율이 0.6대를 기록하면서 범죄율과 빈곤율은 어느 정도 상관이 있는 걸로 보입니다. 그리고 '인구 100명 당 파출소'와 '지역 인구 대비 노인 인구율'은 둘 다 0.1대를 기록한 걸로 봐서는 크게 관련이 없다고 봐도 무방할 것 같네요.
 

상관계수 이용 시 주의사항

이런 식으로 변수(범위)들 간의 관계의 밀접함을 구하시면 되는데요. '상관계수' 함수를 어떻게 써야 하는지 대략 감을 잡으셨나요? 상관계수 함수는 간편한 함수지만 사용하면서 유의하셔야 할 점이 있는데요. 상관계수는 두 변수 사이의 관계의 강도와 방향만을 측정한다는 점입니다!

이게 무슨 뜻이냐고요?

상관계수가 원인과 결과 관계를 의미하는 게 아니라는 겁니다(중요!). 
또한, 아무리 상관계수가 높아도 이는 두 변수가 정확하게 같은 패턴으로 움직인다는 것을 보장하지 않습니다. 그러므로 상관계수는 다른 통계 지표와 함께 사용하여, 데이터의 경향성을 조금 더 명확하게 본다는 것에 의의를 두시면 좋겠습니다. 
결국, 상관계수는 여러 변수 사이의 관계를 효과적으로 분석하는 데 중요한 도구입니다. 그러니 이 함수에만 의존하기보다는 여러 통계 지표와 분석 방법을 병행하는 것이 데이터를 정확하게 해석하는 데 있어 더 유리하다는 점을 잊지 말아주세요.  








 


작성자 : 박배민/유랑 / 작성일 : 2023.08.16 / 수정일 : 2023.08.17 / 조회수 : 6992

코멘트를 달아주세요!



 목록으로