시간을 기록하다

블로그 이미지
by 기록자
  • 18,064Total hit
  • 31Today hit
  • 31Yesterday hit

'자료분석'에 해당되는 글 1건

  1. 2009/05/16
    통계학에서의 상관계수와 연관성
상관계수

연속형 자료값을 갖는 두 특성 사이의 관계를 객관적인 수치로 표현하기 위한 대표적인 방법으로 상관계수(correlation coefficient)가 있다. 두 특성에 대한 자료값이 모집단 전체일 경우에는 모상관계수(population correlation coefficient)라 하고 보통 ρ라고 표기하며, 표본인 경우에는 표본상관계수(sample correlation coefficient)라 하며 r이라 표기한다.

두 특성을 편의상 변수로 표현하면, 하나의 특성을 X, 나머지 다른 특성을 Y라 하자.
그러면 두 특성의 분산값들을 아래의 식을 이용하여 구할 수 있다.


위의 분산값들을 계산할 때 아래와 같이 정리하여 계산하면 더 쉽게 구할 수 있다.


표본상관계수는 아래의 식과 같이 정의된다.


위의 식과 같이 상관계수가 구해지면 구해진 r 값에 대해 다음과 같은 의미를 갖는다.

1) 표본상관계수 r은 두 특성의 관련성을 나타내는 척도이다. 연관성이 양이면 표본상관계수의 값도 양의 값을 갖는다.
2) 표본상관계수 r은 항상 -1과 1사이의 값을 갖는다.
3) 표본상관계수의 극단적인 값 r=-1 or r=1은 완전한 직선관계를 의미한다. r=-1 인 경우에는 모든 자료가 기울기가 음인 직선상에 놓여있고, r=1 인 경우에는 모든 자료가 기울기가 양인 직선상에 놓여있음을 의미한다.
4) 표본상관계수 r은 산점도에서 점들이 직선에 얼마나 가까이 모여 있는가를 나타내는 척도이다. 즉, r은 일반적인 연관성을 측정하는 것이 아니라 직선관계를 측정하는 척도이다. 상관계수에 따른 산점도에서의 분포 형태는 아래의 그림과 같다.


상관관계와 인과관계

자료를 분석할 때, 주의해야 할 점은 두 특성 사이의 상관계수의 값이 크다는 것이 두 특성 사이에 강한 인과관계가 항상 존재한다는 것을 의미하지는 않는다는 것이다.
예를 들면, 한 주일 동안에 발생한 독감환자의 수와 아이스크림 판매량의 상관계수가 음으로 나타났다. 두 특성 사이에 인과관계가 존재한다면 아이스크림을 먹는 것이 독감을 예방한다고 할 것이다. 여기서 우리가 고려해야 할 사항은 기온이다. 기온이 높아지면 자연스레 아이스크림의 판매량도 증가할 것이며 독감환자의 수는 감소하게 될 것이고 기온이 낮아지면 아이스크림의 판매량도 감소할 것이며, 독감환자의 수는 증가하게 되므로 두 특성 사이의 상관계수는 음의 값을 가질 것이다. 즉, 두 특성 사이의 인과관계는 아니라는 것이다. 이때 기온과 같이 두 특성, 아이스크림의 판매량과 독감환자의 수에 영향을 미치는 특성을 잠재특성이라고 한다. 따라서 두 특성 사이에 인과관계가 존재하는지를 파악하기 위해서는 통계적 추론보다는 상식이나 그 분야에서의 전문적인 지식을 활용해야 한다.
이올린에 북마크하기(0) 이올린에 추천하기(0)
크리에이티브 커먼즈 라이선스
Creative Commons License
이 저작물은 크리에이티브 커먼즈 코리아 저작자표시 2.0 대한민국 라이선스에 따라 이용하실 수 있습니다.
TRACKBACK 0 AND COMMENT 0

ARTICLE CATEGORY

분류 전체보기 (42)
개발 노트 (1)
초보의 알고리즘 (17)
프로그래밍 팁 (13)
기타 등등등등등 (11)

CALENDAR

«   2010/03   »
  1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30 31      

ARCHIVE

LINK