연속형 자료값을 갖는 두 특성 사이의 관계를 객관적인 수치로 표현하기 위한 대표적인 방법으로 상관계수(correlation coefficient)가 있다. 두 특성에 대한 자료값이 모집단 전체일 경우에는 모상관계수(population correlation coefficient)라 하고 보통 ρ라고 표기하며, 표본인 경우에는 표본상관계수(sample correlation coefficient)라 하며 r이라 표기한다.
두 특성을 편의상 변수로 표현하면, 하나의 특성을 X, 나머지 다른 특성을 Y라 하자.
그러면 두 특성의 분산값들을 아래의 식을 이용하여 구할 수 있다.
위의 분산값들을 계산할 때 아래와 같이 정리하여 계산하면 더 쉽게 구할 수 있다.
표본상관계수는 아래의 식과 같이 정의된다.
위의 식과 같이 상관계수가 구해지면 구해진 r 값에 대해 다음과 같은 의미를 갖는다.
1) 표본상관계수 r은 두 특성의 관련성을 나타내는 척도이다. 연관성이 양이면 표본상관계수의 값도 양의 값을 갖는다.
2) 표본상관계수 r은 항상 -1과 1사이의 값을 갖는다.
3) 표본상관계수의 극단적인 값 r=-1 or r=1은 완전한 직선관계를 의미한다. r=-1 인 경우에는 모든 자료가 기울기가 음인 직선상에 놓여있고, r=1 인 경우에는 모든 자료가 기울기가 양인 직선상에 놓여있음을 의미한다.
4) 표본상관계수 r은 산점도에서 점들이 직선에 얼마나 가까이 모여 있는가를 나타내는 척도이다. 즉, r은 일반적인 연관성을 측정하는 것이 아니라 직선관계를 측정하는 척도이다. 상관계수에 따른 산점도에서의 분포 형태는 아래의 그림과 같다.
상관관계와 인과관계
자료를 분석할 때, 주의해야 할 점은 두 특성 사이의 상관계수의 값이 크다는 것이 두 특성 사이에 강한 인과관계가 항상 존재한다는 것을 의미하지는 않는다는 것이다.
예를 들면, 한 주일 동안에 발생한 독감환자의 수와 아이스크림 판매량의 상관계수가 음으로 나타났다. 두 특성 사이에 인과관계가 존재한다면 아이스크림을 먹는 것이 독감을 예방한다고 할 것이다. 여기서 우리가 고려해야 할 사항은 기온이다. 기온이 높아지면 자연스레 아이스크림의 판매량도 증가할 것이며 독감환자의 수는 감소하게 될 것이고 기온이 낮아지면 아이스크림의 판매량도 감소할 것이며, 독감환자의 수는 증가하게 되므로 두 특성 사이의 상관계수는 음의 값을 가질 것이다. 즉, 두 특성 사이의 인과관계는 아니라는 것이다. 이때 기온과 같이 두 특성, 아이스크림의 판매량과 독감환자의 수에 영향을 미치는 특성을 잠재특성이라고 한다. 따라서 두 특성 사이에 인과관계가 존재하는지를 파악하기 위해서는 통계적 추론보다는 상식이나 그 분야에서의 전문적인 지식을 활용해야 한다.