PRODUCT DESIGNER/Daily 🫧

[Day 43] AI와 EDA 탐색적 데이터 분석

honyonii 2025. 11. 12. 16:02
📍목차
1. EDA 탐색적 데이터 분석
1-1. EDA 방법
1-2. EDA를 하는 이유
1-3. CRISP-DM 6단계
2. GPT로 EDA 실습
3. 기업 사례

1. EDA 탐색적 데이터 분석

Exploratory Data Analysis

 

데이터를 분석하기 전에 데이터를 잘 이해하기 위해 여러 각도에서 쪼개보고, 돌려보고, 비교해보고 시각화하는 과정

  • 컬럼마다 무슨 뜻인지 이해하기
  • 결측치나 이상치가 있는지 확인하기
  • 그래프(히스토그램, 박스플롯 등)로 분포 보기
  • 데이터의 단위, 범위, 의미를 체크하기

 

▼ 원하는 데이터 다운받아 사용할 수 있는 사이트

https://www.kaggle.com/

 

Kaggle: Your Machine Learning and Data Science Community

Kaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals.

www.kaggle.com

https://www.data.go.kr/

 

공공데이터 포털

국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Datase

www.data.go.kr

 

📌 EDA 방법

1) Raw data의 description, dictionary를 통해 데이터의 각 컬럼들과 로우의 의미를 이해

2) 결측치 처리 및 데이터 필터링 (결측치 제거 / 평균, 중앙값으로 대체)

3) 누구나 이해하기 쉬운 시각화 생성

 

 

📌 EDA를 하는 이유

데이터를 이해하기 위해  이 데이터가 어떤 구조인지, 숫자인지 문자인지, 뭘 의미하는지 파악
문제를 미리 발견하기 위해 누락된 값(결측치), 이상치(혼자 튀는 값) 같은 문제를 미리 발견
분석 방향을 정하기 위해 어떤 컬럼이 중요할지, 어떤 분석이나 모델이 필요할지 힌트를 얻을 수 있다.
데이터의 숨은 패턴을 찾기 위해 시각화를 통해 관계나 경향을 발견

 

머신러닝: 컴퓨터에게 이미지, 패턴 등을 학습시켜서 구분할 수 있게 만든다.

→ 사용자 개인화(메뉴 추천, 콘텐츠 추천, 스타일 추천 등), 이미지에 있는 사물이 무엇인지 구분할 수 있게 하여 이미지로 검색가능하도록

 사용자 경험을 향상시킨다

 

 

📌 CRISP-DM 6단계

1단계: 비지니스 이해 (Business Understanding)

무엇을 위해 분석하는지, 목적과 가치를 정의

  • 분석의 목적을 분명히 함 (ex. 집값 예측)
  • 누가 이 데이터를 쓸지, 어떤 가치를 줄 수 있는지 생각

🗣️ 프롬프트: "이 데이터셋의 분석 목적을 설정해줘. 주택 가격 예측이라는 목표로 누구에게 어떤 가치를 줄 수 있는지 정리해줘."

 

 

2단계: 데이터 이해 (Data Understanding)

데이터를 불러오고 구조와 통계를 파악

  • 데이터 구조 확인 (.Info(), .describe())
  • 분포 시각화 (히스토그램, 상관관계 등)

🗣️ 프롬프트: "데이터 구조와 통계를 보여줘. 누락값, 이상치 여부도 알려줘. 주요 변수들의 분포를 시각화해줘."

 

 

3단계: 데이터 준비 (Data Preparation)

이상치, 누락값 처리하고 머신러닝에 맞게 정리

  • 이상값 처리 (IQR, 하한/상한 제한
  • 범주형 변수 인코딩 (0/1, 원핫 인코딩)
  • 필요 없는 열 제거, 스케일링

🗣️ 프롬프트: "이상값을 IQR 방식으로 처리해줘. 범주형 변수는 인코딩해줘. 분석에 불필요한 컬럼은 제거해줘."

더보기

*원핫 인코딩: 범주형 데이터를 머신러닝이 이해할 수 있는 수치형 데이터로 변환하는 방법

▷ 각 카테고리를 고유한 벡터로 표현, 해당 데이터가 속하는 범주에 1 그 외 범주에 0을 할당한다.

ex. 동물 카테고리에 고양이, 강아지가 있는 경우, 고양이=[1, 0] / 강아지=[0, 1] 로 표현

즉, 해당되는 범주에 있는걸 1로 켜준다라는 의미로 one hot 인코딩이라 한다. 

 

4단계: 모델링 (Modeling)

데이터를 바탕으로 예측 모델을 만들고 학습시킴

  • 훈련 데이터와 테스트 데이터 분리
  • 선형회귀, 트리 등 다양한 모델 학습
  • 예측 결과 확인

🗣️ 프롬프트: "선형회귀, 랜덤포레스트, 그래디언트 부스팅 모델을 학습시켜줘. RMSE로 성능 비교해줘."

 

 

5단계: 평가 모델 (Evaluation)

얼마나 잘 작동하는지 확인

  • 모델 성능 평가 (RMSE, MAE 등)
  • 예측 결과 시각솨
  • 오차 분석

🗣️ 프롬프트: "기존 모델들과 비교해, 성능이 좋은지 평가해줘. 시각화로 예측값과 실제값을 비교해줘."

 

 

6단계: 배포 (Deployment)

분석 결과를 정리하고 공유하거나 적용

  • 결과 요약 및 추천
  • 모델 및 인사이트 문서화

🗣️ 프롬프트: "이 분석 결과를 기반으로 한 보고서나 발표자료를 요약해줘."

 

데이터 분석 파이프라인
데이터 정제 (EDA) → 머신러닝 → 시각화 → 결론 도출

2. GPT로 EDA 실습

넷플릭스 데이터 (2010~2021).csv (by. Kaggle)

 

 

데이터 분석 목적 / 가치 도출

 

이상치 / 결측치 확인

 

변수별 분표 시각화

 

 

장르 중심 트렌드 분석 결과

 

국가별 장르 트렌드 / 연도별 장르별 누적 비중

 

최근 인기 있는 장르

 

연평균 성장률 기반 장르 TOP 5 / 최근 장르별 점유율 → 상관 분석

 

 

💬
이중전공 수업에서 배우던 내용을 디자인 공부를 하면서 다시 보게 될 줄 몰랐다 //
프롬프팅 공부를 통해 만나게된 '냅다 시키면 결론 도출해주는 천국..🪽'ㅋㅋㅋ
GPT도 점점 업데이트 되면서 예전에 뽑아주던 시각화와 분석보다 지금이 정확도와 퀄리티가 올라간 것 같다.

 


3. 기업 사례

1) 새벽의 자리아

https://www.idailynews.co.kr/news/articleView.html?idxno=101202

 

‘새벽의 자리아’ 판결 분석: 미국 저작권청, 새로운 선례 설정

미국 저작권청(USCO)이 최근 인공지능(AI)을 활용해 일부 이미지를 생성한 그래픽 노블 ‘새벽의 자리아(Zarya of the Dawn)’에 대해 제한적 등록을 허가하는 파격적인 결정을 내렸다. 이번 결정은 AI

www.idailynews.co.kr

 

2) 하인즈 케찹 마케팅

https://www.madtimes.co.kr/news/articleView.html?idxno=13889

 

[해외 크리에이티브] 하인즈가 AI에게 케첩을 그려달라고 요청하면 일어나는 일 - 매드타임스(MADT

[ 매드타임스 최영호 기자] 단어를 입력하면 AI 이미지 생성기가 비주얼을 만든다. 요거트를 먹는 연예인, 아보카도 의자, 코스모폴리탄 표지 그리고 10days에 의해 수행된 10개 브랜드 광고 제작

www.madtimes.co.kr

 

3) 11번가

https://www.cnet.co.kr/view/?no=20230703101111

 

11번가, 프로모션 디자인에 'AI 이미지 생성 프로그램' 도입

11번가가 프로모션 디자인에 생성형 AI를 도입했다.     11번가는 여름 바캉스 프로모션 ‘지금, 바캉스...

www.cnet.co.kr

 

4) 코카콜라

https://www.coca-colacompany.com/media-center/coca-cola-invites-digital-artists-to-create-real-magic-using-new-ai-platform

 

Coca-Cola Invites Digital Artists to ‘Create Real Magic’ Using New AI Platform

Digital creatives around the world can use a first-of-its-kind AI platform to generate original artwork with iconic creative assets from the Coca-Cola archives. Check out this story and more news from The Coca-Cola Company.

www.coca-colacompany.com

 

5) 코스모폴리탄

https://www.cosmopolitan.com/lifestyle/a40314356/dall-e-2-artificial-intelligence-cover/?utm_source=chatgpt.com

 

DALL-E 2 Made Its First Magazine Cover

The technology behind DALL-E 2 is already reshaping the world as you know it—perhaps most literally with this magazine cover you’re looking at. Are you ready for what comes next?

www.cosmopolitan.com

 


과제.
아바타를 디자인하세요. 이 아바타는 회사 로고로 사용될 수도 있고, 앱 사용자 프로필 이미지로 사용될 수도 있습니다. 디자인할 때 다음 요소들을 고려해보세요,

모서리 라운딩 정도 / 아바타의 크기 / 레이아웃에서의 위치 / 전반적인 스타일과 톤

 

 

어제 기획하고 제작했던 작심삼일로 다이어트를 포기하는 사람들을 다이어트시켜주는 어플의 캐릭터를 만들어보았다. 

다이어트 전에는 살이 있으니까 말랑한 느낌이 들어 찰흙인간 같은 레퍼런스를 핀터레스트에서 찾았다. 

앱 로고 / 아이콘

 

💡 로고의 링은 줄넘기였으면 더 좋았을 것 같다는 피드백 받음.

동영상 서비스가 종료되어 해당 콘텐츠를 재생할 수 없습니다.

로고도 만들어서 변하는걸 해보고 싶었는데,, 막 통통 튀어서 바뀌는 그런건 우째 만들어야할까나,,,🧐