본문 바로가기
IT

[TIL] 데이터 리터러시_22일차(데이터 리터러시 Part1)

by 공부하죠 2024. 4. 26.
반응형

이번 시간부터는 새로이 데이터 리터러시에 대해 공부한 내용을 정리하겠습니다.

 

📚 목차

1. 데이터 리터러시의 정의

2. 데이터 분석에 대한 착각

3. 데이터 해석 오류 사례

4. 데이터 리터러시 활용 예제

5. 데이터 리터러시가 필요한 이유

 


1. 데이터 리터러시의 정의

 

1) 데이터 리터러시(Data Literacy)

데이터를 읽는 능력

데이터를 이해하는 능력

데이터를 비판적으로 분석하는 능력

결과를 의사소통에 활용할 수 있는 능력 

데이터 리터러시 구성

2) 데이터 리터러시란?

데이터 수집과 데이터 원천을 이해하고

주어진 데이터에 대한 다양한 활용법을 이해하고

데이터를 통한 핵심지표를 이해하는 것

⇒ 데이터 리터러시는 올바른 질문자신에게 던질 수 있도록 만들어 줌


2. 데이터 분석에 대한 착각

1) 데이터 분석 학습에 대한 일반적 접근

보통 데이터 분석을 배운다고 한다면, SQL, Python, Tableau 등을 학습

막상 데이터 분석을 하려고 보면 잘 되지 않음

2) 데이터 분석에 대한 착각

보통 데이터 분석을 배운다면, SQL, Python, Tableau 등을 학습하지만 직접 데이터 분석을 하려고 보면 잘 되지 않음( 뭘 해야 할지 모름 )

데이터를 잘 분석하면 문제, 목적, 결론이 나올 것이라고 생각

데이터를 잘 가공하면 유용한 정보를 얻을 수 있다고 생각

분석에 실패하면 방법론, 스킬이 부족한 것이라고 생각 ( ML 같은 기술 부족이라 생각 )


3. 데이터 해석 오류 사례

1) 심슨의 역설 (Simpson’s Paradox) 

⇒ 심슨의 패러독스란 '부분'에서 성립한 대소 관계가 그 부분들을 종합한 '전체'에 대해서는 성립하지 않는 모순적인 경우를 말한다.

[ 사례 ]

영국 공공보건국에서 2021년 8월 발표한 코로나 변이 바이러스에 대한 브리핑 자료

 

백신 미접종자의 치명률 0.17%, 백신 2차 접종 완료 치명률 0.86%

백신 접종 완료자의 치명률이 미접종자에 비해 5배 이상 더 높게 나타난 의문스러운 결과

 

하지만 나누어 생각한다면?

데이터를 50세 미만과 50세 이상으로 나누어 살펴보면 다른 결과를 확인할 수 있음

 

 50세 미만 집단에서는 백신 미접종자의 치명률이 0.03%, 접종 완료자의 치명률이 0.05%

접종 완료자의 치명률이 더 높기는 했으나, 양쪽 모두 낮은 수준의 치명률을 나타냄

 50세 이상 집단에서는 백신 미접종자의 치명률이 5.96%, 접종 완료자의 치명률이 1.81%

미접종자의 치명률이 접종 완료자에 비해 3배 이상 높게 나타남

 

☑️ 즉, 개별 연령 집단 내에서 살펴보면, 50세 미만은 백신 접종 여부에 관계없이 치명률이 매우 낮았고, 50세 이상의 위험군에서는 백신이 치명률을 낮추는 효과가 있음

 

[ 결론 ]

☑️ 전체에 대한 결론이 언제나 개별 집단에 그대로 적용되는 것은 아님

☑️ 데이터에 기반한 결론이라고 해서 이를 맹목적으로 받아들여서는 안됨

 

2) 시각화를 활용한 왜곡

⇒ 자료의 표현 방법에 따라서 해석의 오류 여지가 존재 

 

[ 사례 ]

매해 노동자와 자본가가 버는 시간당 액수의 증가를 세 가지 방식으로 나타낸 사례 (《The Economist》의 자료)

 

[왼쪽] 그대로의 자료, [중간] 증가량에 로그, [오른쪽] 노동자와 자본가의 최초 수입을 100%로 놓고 이후의 증가율

 

왼쪽 그래프에서는 노동자의 임금이 현저히 낮은 것을 확인 할 수 있음

중간 그래프에서는 노동자들의 임금 증가가 급격하게 이루어져 왔다고 해석될 여지 존재

오른쪽 그래프에서는 노동자들의 임금 증가가 자본가의 수입 증가를 훨씬 능가한다고 해석할 여지 존재

 

3) 샘플링 편향 (Sampling Bias)

전체를 대표하지 못하는 편향된 샘플 선정으로 인해 오류가 발생

[ 사례 ]

1936년 미국 대통령 선거에서 Literary Digest 잡지사가 천만 명에게 우편물을 보내 수행한 대규모 여론조사 사례

240만 명의 응답을 받았고 랜던이 선거에서 57% 득표를 얻을 것이라고 높은 신뢰도로 예측했지만, 루즈벨트가 62% 득표로 당선

 

문제는 Literary Digest의 샘플링 방법

1️⃣ 여론조사용 주소를 얻기 위해 전화번호부, 자사의 구독자 명부, 클럽 회원 명부 등을 사용. 이런 명부는 모두 공화당(따라서 랜던)에 투표할 가능성이 높은 부유한 계층에 편중된 경향이 존재

2️⃣ 우편물 수신자 중 25% 미만의 사람이 응답. 이는 정치에 관심 없는 사람, Literary Digest를 싫어하는 사람과 다른 중요한 그룹을 제외시킴으로써 역시 표본을 편향되게 만듦

 

[ 결론 ]

☑️ 표본이 편향되면서 실제와는 다르게 해석하게 될 수 있음

 

4) 상관관계와 인과관계

상관관계 

⇒ 두 변수가 얼마나 상호 의존적인지를 파악하는 것을 의미 (상관이 있구나라는 추론)

파악 방법은 한 변수가 증가하면 다른 변수도 따라서 증가/감소하되 그 추이를 따름

인과관계

실질적으로 하나의 요인으로 인해 다른 요인의 수치가 변하는 형태를 의미

원인과 결과가 명확한 것

[ 사례 ]

1940년대 보건 전문가의 소아마비와 아이스크림 섭취 간의 연구 결과 

당시 보건 전문가는 소아마비와 아이스크림 섭취량의 상관관계가 있는 것을 발견, 전국에 소아마비 예방을 위해 아이스크림 섭취량을 줄일 것을 권고

하지만, 소아마비는 여름에 많이 발생 & 아이스크림은 여름에 판매량이 급증

 

[ 결론 ]

☑️ 소아마비와 아이스크림 섭취 간에는 어떤 인과관계도 존재하지 않음

☑️ 단순히 날씨라는 변수로 인해 공통으로 영향을 주게 됨

 

🚨상관관계는 인과관계가 아닌 것을 항상 유의해야 함

상관관계만으로 섣불리 의사결정 하지 않기

양쪽을 모두 활용하여 상황에 맞게 합리적인 의사판단 하기


4. 데이터 리터러시 활용 예제

Q1. 위 그래프를 통해 어떤 것을 말할 수 있나요? ⇒  데이터를 읽는 것

🧩 힌트: 떠오르는 생각을 자유롭게 정리해보세요!

💡 A. 고객지원팀의 인원이 가장 적고 개발팀이 가장 많다. 이 회사는 개발 쪽 회사일 가능성이 높다.
인사팀, 영업팀, 재무팀의 인원이 차이가 별로 없다. 다른 회사에 비교하면 인사팀 인원이 많다.

 

 

Q2. 이 그래프를 작성한 사람은 무엇을 말하고 싶었을까요?

데이터 작업 전 알고 싶은 것을 생각해보는 목적 사고적 방식

🧩 힌트: Q1.의 질문과 다른것이 무엇일까 생각하며 대답을 정리해보세요!

💡 A. 상대적으로 고객지원팀의 인력이 너무 적어서 충원이 필요하다. 전체 인원 대비 마케팅팀에 너무 많은 인력이 있어 감축이 필요하다. 다른 회사에 비교하면 인사팀 인원이 많아 감축이 필요하다. 핵심부서가 어디인가.


5. 데이터 리터러시가 필요한 이유

1) 데이터 분석에 대한 접근법

[ 크게 3가지 단계로 구분 ]

문제 및 가설정의

데이터 분석

결과 해석 및 액션 도출

 

2) 위 단계 중 ‘생각’이 주요한 단계에서 데이터 리터러시가 필요

3) 데이터 분석이 목적이 되지 않도록 ‘왜?’를 항상 생각해야 함( 소프트 스킬 )


10년차 데이터분석가 서류 통과율 높이는 전략 특강이 보고 싶다면 여기를 클릭📈

회사 상황 별 분석가의 업무가 보고 싶다면 여기를 클릭 📊

코딩 테스트 합격법 정리를 알고 싶다면 여기를 클릭🌃

반응형