데이터 분석 Tips: 많이 실수하는 통계 오류 유형 정리

Casual이란 인과관계가 있음을 의미하고, non-casual이란 인과관계가 없음을 의미한다.

데이터 분석의 목표 중 하나는, casual association 즉 인과관계가 있는 연관성을 나타내는 가설을 검증하려는 것이다.

하지만 인과관계를 도출해내려는 과정의 도처에 오류 발생 가능성이 잠재되어 있다.

예를 들어, 상관관계 등은 통계적으로 유의하지만 반드시 인과관계가 있다고 단정지을 수 없다. 만약 인과성이 없는 관계를 인과관계로 착각한다면, 오류가 발생한다.

쉽게 범할 수 있는 통계 오류의 유형을 아래에서 간단히 정리해보겠다. 😎

(1) Data dredging

데이터 드레징(Data Dredging)은 통계적으로 유의미한 결과를 얻기 위해, 여러 변수로 여러 번의 테스트를 시도하는 과정이다. 가설을 검증하는 과정에서 관련성이 없는 변수나 테스트를 유의미한 결과가 나올 때까지 계속해서 시도하는 것이다. 결국 우연에 의해 발생한 False Positive 결과를 실제로 유의미한 것으로 잘못 결론 내리게 된다. 투명하고 신뢰할 수 있는 연구 결과를 얻기 위해서는 데이터 수집과 분석 과정에서 이러한 유형의 편향을 방지하는 것이 중요하다. 이 문제는 케이크의 맨 위에 놓인 체리만 따 먹는 것과 비슷하다고 하여 cherry picking 문제라는 이름으로도 불린다.

(2) Reserving cause and effect

A->B 방향성이 있는 인과관계와는 달리 A<->B 통계적 상관관계는 대칭적이다. 즉 A가 B와 상관관계가 있다면 B도 A와 상관 관계가 있다. 따라서 통계적 상관관계를 인과관계로 잘못 분석한다면, 원인과 결과가 역전된 주장이 된다.

예를 들어, "부모가 숙제를 정기적으로 도와줄 때, 아이의 학업 성취도가 더 낮다"라는 분석은 인과관계가 역전된 잘못된 분석이다. "아이의 학업 성취도가 낮기 때문에, 부모가 숙제를 정기적으로 도와준다"가 진실이기 때문이다.

(3) The association induced by a third value

두 변수 X와 Y가 주어졌을 때, 두 변수가 세번째 변수 Z에 의해 영향을 받는다는 것을 간과한다면 잘못된 결과 분석으로 이어질 수 있다. Z가 X, Y와 관계를 가질 수 있는 시나리오는 아래 세 가지로 나누어진다.

1) Common Cause

Z가 X와 Y가 공유하는 원인에 해당하는 경우, 즉 Z->X, Z->Y의 인과관계가 성립하는 경우 X->Y를 인과관계로 파악하는 것은 잘못이다.

예를 들어, 상어에 물려죽는 사람의 수와 아이스크림 소비량 사이의 관계를 "아이스크림을 많이 소비할수록 상어에 물려죽는 사람의 수가 많아진다"라고 파악하는 것은 잘못이다. 두 변수 모두 계절이라는 제3의 요소에 영향을 받기 때문이다.

2) Indirect cause

Z가 X의 결과 그리고 Y의 원인에 해당하는 경우, 즉 X->Z, Z->Y의 인과관계가 성립하는 경우 X->Y는 직접적인 인과관계를 가지지 않으므로 이를 인과관계로 섣불리 단정짓는 것은 잘못이다.

3) Common Consequence

Z가 X와 Y가 공유하는 결과에 해당하는 경우, 즉 X->Z, Y->Z의 인과관계가 성립하는 경우 X->Y를 인과관계로 파악하는 것은 잘못이다. common consequence는 collider 또는 Berkson's paradox라고 불리기도 한다.

(+) Simpson's paradox

심슨의 역설이란, 변수 X와 Y 간의 상관관계가 예상과는 다르게 나타나 허위 결론으로 이어지기 쉬운 현상을 이른다. 특정 집단 및 그룹 내에서 발견되는 추세와 전체적으로 발견되는 추세가 달라 통계의 함정이 유발될 수 있는 대표적인 케이스다.

심슨의 역설은 주로 다음과 같은 상황에서 나타난다.

변수들 간의 관계가 전체 데이터와 부분 집단 데이터에서 다르게 나타날 때.
제3의 변수(잠재적 변인)가 두 변수 간의 관계를 왜곡시킬 때.

예를 들어, 남학생 전체의 합격률은 여학생 전체의 합격률보다 높으나, 학과별 합격률 은 여학생이 더 높은 경우 전체와 부분이 다른 양상을 보이는 <심슨의 역설> 현상으로 파악된다.

이미지 자료 출처: 뮌헨공대 Data Analysis and Visualization in R 강의 수업 자료, 데이터마케팅공부방

TENA STUDYING