본문 바로가기
IT

[TIL] kaggle 와인 데이터 분석_18일차(탐색적 데이터 분석(EDA),논문을 통한 인사이트)

by 공부하죠 2024. 4. 23.
반응형

저번 시간(TIL_16일차)에 이어서 와인 데이터 분석을 시작하겠습니다.

 

분석에 앞서 문제 상황을 인식 • 이해하고 여기(목적)에 맞는 주제를 찾고 컬럼 간의 어떤 연결고리가 있을지 추론해 보고 분석하여 의미 있는 인사이트와 액션을 도출해야 합니다. 

 

이번 블로그에는  탐색적 데이터 분석(EDA)을 하겠습니다.


✏️목차 📖

1. 탐색적 데이터 분석(EDA)

2. 와인 데이터 탐색적 데이터 분석(EDA) 

3. 논문을 통한 인사이트

4. 결론

5. 와인 분석을 위한 참고문헌


1. 탐색적 데이터 분석(EDA) 🧩

1) 탐색적 데이터 분석(EDA)이란?

1-1) 탐색적 데이터 분석 = Exploratory Data Analysis = EDA

1-2) 수집한 로우데이터(raw data)가 접했을 때, 이를 다양한 각도에서 관찰, 파악하고 이해하는 과정이 필요합니다. 즉 데이터를 분석하기 전에 feature(column)을 여러 측면에서 쪼개기도 해보고 연결해 보기도 하면서 문제 인지와 인사이트를 도출하는 것입니다. 이를 위해 그래프나 통계적인 방법으로 자료를 직관적으로 바라보는 과정입니다.

 

2) 탐색 방법

2-1) 이상값을 찾아내는 부분 : 개별 데이터 관찰, 통계 값 활용, 시각화 활용, 머신러닝 기법 활용

2-2) 속성 간의 관계 분석하기

  • Categorical - Categorical : 교차 테이블, 모자이크 플롯 등을 이용해 각 속성 값의 쌍 또는 가장 연관 있는 값에 해당하는 값 개수를 표시합니다.
  • Numeric - Categorical : 각 카테고리별 통계 값(평균, 중간값 등)을 관찰할 수 있습니다. 이를 박스 플롯, 막대 그래프 등을 통해 시각적으로 표현할 수 있습니다. 반드시 모든 사람이 이해하기 쉽게 시각화 해야합니다.
  • Numeric - Numeric : 상관계수를 통해 두 속성 간의 연관성을 나타낼 수 있습니다. -1은 두 속성이 반대 방향으로 변하는 음의 상관관계이고, 0은 상관관계없음을 나타내고, 1은 두 속성이 항상 같은 방향으로 변하는 양의 상관관계를 나타냅니다. 상관계수를 갖는 두 속성의 관계도 다양한 특징이 있을 수 있는데, 스케터 플롯을 이용하여 이를 시각적으로 그릴 수 있습니다. 

2개 이상의 속성 간의 관계를 보고 싶다면 그래프를 3차원으로 표현하거나, 그래프 위에 표현된 점의 색상을 다르게 해서 이용하거나 모양을 달리하여 더 많은 속성을 나타낼 수 있습니다. 혹은 각 점을 텍스트로 표현할 수도 있을 것입니다. 


2. 와인 데이터 탐색적 데이터 분석(EDA) 🧩

1) 연속형 변수 상관관계 분석

  • 알코올이 높을수록 온도가 높아지는 양의 상관관계
  • 당도가 높을수록 산도가 낮아지는 음의 상관관계
  • 입 안에서 느껴지는 걸쭉함이 높을수록 떫은맛이 높아지는 양의 상관관계

 

2) 고가 와인과 저가 와인의 생산 나라 분석

  • 각 카테고리별 통가격의 해당하는 PIRCE컬럼 불균형이 존재
  • 가격이 높은기준-> 상위25%
  • 가격이 낮은기준-> 하위 25%
  • 프랑스, 이탈리아, 미국이 많은 비율을 차지
  • 칠레, 아르헨티나 등 남미 국가들은 비교적으로 낮은 비율을 차지

‣ 고가 와인을 생산하는 나라 분포 : 고가와인을 생산하는 나라는 프랑스가 압도적으로 비율이 높음

  저가 와인을 생산하는 나라 분포 : 전체비율에서 비교적 낮은 칠레,아르헨티나,남아프리카 공화국등이 비율이 높아짐

  각 나라 별로 상위25%비율로 들어간 와인의 수를 모든가격으로 생산된 전체와인수로 나눈 비율

‣  각 나라 별로 하위25%비율로 들어간 와인의 수를 모든가격으로 생산된 전체와인수로 나눈 비율

 

3) 고가 와인의 품종에 대한 분석(프랑스)

전체와 비교해봤을때 Pinot Noir 품종이 높은 가격와인의 높은 비율을 차지

 

4) 저가 와인의 품종에 대한 분석(칠레)

전체와 비교해봤을때 Cabernet Sauvignon 품종이 낮은 가격와인의 높은 비율을 차지

 

5) SWEET가 높은 와인을 생산하는 나라

당도가 높다른 기준을 SWEET>=3 을 기준으로 잡음

전체생산과 비교하면 독일의 비율이 많이 높아짐


3. 논문을 통한 인사이트

초보 고객을 위한 와인 리스트

논문을 통한 결정 요인

  • 선호하는 와인 스타일 : ‘스위트와인’
  • 선호하는 와인 종류 : ‘레드와인’
  • 선호하는 와인 품종 : ‘카베르네 쇼비뇽’
  • 선호하는 와인 생산 국가 : ‘프랑스→칠레→이탈리아 순서’
  • 가격 대 하위 25% ⇒ 4만원 이하

이와 같은 리스트로 와인을 처음으로 접한 초보자들에게 의사결정의 도움을 줄 수 있습니다.


4. 결론🍀

4-1) 분석 결과

  • 다른 나라에 비해 저가 와인의 생산 비율이 높은 칠레, 아르헨티나 등에서 수입하는 전략을 회사 입장에서 생각할 수 있습니다.
  • 거의 대부분 당도가 높지 않은 와인 정보의 데이터였지만 독일은 당도가 높은 와인을 생산하는 비율이 높습니다.

 

4-2) 향후 분석 방향

  • 제품 가격만이 아닌 운송비, 관세 등 추가적인 비용이 나와있는 데이터가 있었다면 더 좋은 결과가 나올 것으로 보습니다.
  • 생산량, 와인에 대한 소비자의 리뷰 데이터 등을 사용한다면 더욱 의미 있는 추천이 가능할 것입니다.

 

4-3) 분석하면서 어려웠던 점

  • 주제에 대한 어려움이 있었지만 팀원들과 많은 소통과 데이터를 계속 관찰한 결과 의미 있는 분석을 할 수 있었습니다.
  • csv 파일을 DBeaver로 옮기는 과정에서 어려움을 겪었지만 튜터님들의 도움으로 해결할 수 있었습니다.

 

4-4)  앞으로의 각오

  • 이번 프로젝트를 통해 부족한 점을 알게 되었고 더욱 학습하여 부족한 점을 채워야겠다는 생각을 가지게 됨 습니다.
  • 이번 팀 프로젝트를 통해 배운 것을 살려, 다음 프로젝트에 더 도움이 되도록 노력할 것임

5. 와인 분석을 위한 참고문헌

호텔 식음종사자와 소비자 간의 와인 선택속성 및 선호도 비교연구 논문

 

 

 

💐 와인 데이터 분석 끝 💐


저번 시간(TIL_16일차)이 궁금하시면 여기를 클릭 🌷

kaggle 와인 분석을 처음부터 알고싶다면 (TIL_14일차)여기를 클릭 🌷

DBeaver 를 설치하는 방법을 알고싶다면 여기를 클릭 🌼

SQL를 기초부터 공부하고 싶다면 여기를 클릭 🌼

 

반응형