top of page

00. 데이터분석 전체 플로우

키워드 : 데이터, 데이터 분석,  문제 정의, 데이터 수집, SQL, 크롤링, API, 데이터 정제, 데이터 전처리, 데이터 사이언티스트, AI, tableau, 파이썬, 머신러닝, 딥러닝, 빅데이터, 데이터 마이닝, 데이터 시각화

00. 데이터 분석이란?

스크린샷 2023-08-09 오전 10.54.38.png

최근에는 ‘데이터’라는 단어를 어느 곳에서나 찾아볼 수 있습니다. 포털 사이트에 ‘데이터 분석’이라고 검색하면 무수히 많은 기업이 데이터를 기반으로 움직이는 모습을 실시간으로 확인할 수 있습니다. 금융, 의학, 부동산, 광고, 이커머스 등 분야를 가리지 않고 데이터 분석 결과를 바탕으로 생각하고 판단합니다.

데이터 분석이라는 분야가 급속도로 각광 받기 시작하며 많은 회사가 ‘데이터 분석’ 역량을 요구하고, 또 많은 사람들이 ‘데이터 분석’을 하기 원합니다.

그러나 데이터 분석은 어디서부터 어떻게 시작하는걸까요?

데이터 분석은 위와 같은 과정으로 이루어집니다. 먼저 데이터 분석으로 해결하고자 하는 문제를 먼저 정의하고 이에 필요한 데이터를 수집한 뒤, 데이터를 적절히 정제하여 해결하고자 하는 문제의 목적에 따라 분석합니다. 이를 <도서 판매 사이트 분석 프로젝트>를 예시로 하여 각 단계별로 자세히 살펴보겠습니다.

Da,ta-001 (1).png

01. 문제 정의

데이터 분석 과정의 첫번째는 ‘문제 정의’입니다. 문제를 명확히 정의하는 것이야 말로 전체 단계 중 가장 중요한 영역이라고 할 수 있습니다. 해당 분석의 목적, 이유, 비즈니스에 미치는 영향 등을 전체적으로 고려하여 비즈니스의 요구사항을 명확히 구체화 하여야 합니다. 이를 위해서는 아래와 같은 질문에 대한 답을 먼저 고민해보는 것이 좋습니다.

  • 해결하고자 하는 문제가 무엇인가?

  • 이 분석의 목적이나 목표는 무엇인가? 즉, 이를 통해 무엇을 행하거나 달성하고자 하는가?

  • 이 분석이 왜 필요한가?

쉽게 설명하면 “답을 구하고자 하는 질문”을 도출하되 이를 본인의 비즈니스 모델 하에서 생각하는 것이 중요합니다. 우리 비즈니스의 문제를 해결하는 것을 목적으로 삼고, 이를 통해 달성하고자 하는 목표나 결과물이 무엇인지 고민해야 합니다. 예를 들면 다음과 같습니다.

Da_ta-002 (1).png

우리가 이 마케터 A양이라는 가정 하에 문제를 정의해봅시다. 우리의 비즈니스는 도서를 판매하는 것이며, 현재 당면한 문제는 마케팅 비용 대비 매출 성과를 최대화 하는 것입니다. 그렇다면 데이터 분석을 통해 달성하고자 하는 목표는 ‘효과적인 마케팅 전략 구축’일 것입니다. 이를 위해서는 고객의 니즈와 도서의 특성을 객관적인 데이터를 기반으로 정확히 파악하는 것이 필요하기 때문에 데이터 분석이 필요합니다.

그렇다면 우리는 데이터를 기반으로 ‘고객들이 구매할만한, 관심있어 하는 도서’를 알아내서 해당 도서에 마케팅 예산을 집중적으로 사용할 수 있을 것입니다. 즉 ‘고객들이 좋아할만한 도서를 알아내는 것’을 문제로 정의할 수 있습니다.

02. 데이터 수집

Da,ta-003.png

데이터를 수집하는 방법에는 크게 두가지가 있습니다. 기존에 가지고 있는 데이터 중에서 필요한 부분만 골라서 수집하거나, 해당 프로젝트를 위해 아예 새롭게 수집하는 것입니다. 기존에 가지고 있는 내부 데이터를 활용하기 위해서는 사내DB에서 데이터를 추출하여야 하는데, 이 때 활용되는 것이 SQL 쿼리입니다. 그 외에 웹 상에서 새롭게 외부 데이터를 수집할 때에는 보통 crawling(크롤링)을 사용합니다.

기본적인 분석은 사내 DB에 적재되어 있는 데이터만을 이용해서도 가능하겠지만, 많은 데이터 분석 프로젝트의 경우 당시 프로젝트에 적합한 데이터를 새롭게 수집합니다. 또한 개인 프로젝트나 공모전의 경우에는 대부분 선택의 여지 없이 크롤링 기법을 활용하여 데이터를 추출하기 때문에 crawling기법을 익혀두는 것은 필수입니다. 이 외에도 기타 데이터 수집 방법으로 몇가지를 소개하자면, 타사 데이터의 경우 API를 이용할 수 있으며 필요할 경우 설문조사 등을 통해 정성적인 데이터를 수집할 수도 있습니다.

앞서 정의한 <도서 판매 사이트 분석 프로젝트> 를 예로 들면, 이를 수행하기 위해 대표적인 도서 사이트(ex. 교보0고, y0s24, 알0딘, 인터0크)를 크롤링 할 수 있습니다. 이 때 크롤링은 사이트의 유형에 따라 정적 크롤링과 동적 크롤링 중 적합한 방식을 선택하여 진행하여야 합니다. 여기에 대해서는 다음주 콘텐츠에서 보다 자세히 다룰 예정입니다.

03. 데이터 정제

이렇게 수집된 데이터를 가장 날것의 상태, ‘raw data’라고 지칭합니다. 데이터 분석을 진행하기 위해서는 raw data를 정제하는 과정이 반드시 필요한데, 이 과정은 보통 데이터 탐색 → 데이터 전처리로 이루어집니다.

Da,ta-004.png

먼저 데이터 탐색 과정은 분석 목적에 따라 조금씩 차이가 있으나, 보통 다음의 단계는 반드시 진행합니다.

  • Description 단계 : 데이터의 내용과 패턴을 파악합니다.

  • Info 단계 : 데이터의 구조와 속성을 파악합니다.

  • 시각화 단계 : 막대그래프, 선 그래프, 파이차트, 히트맵, 등을 활용하여 데이터의 분포와 패턴을 파악합니다.

이 과정을 진행하면 raw 데이터의 특성을 알 수 있게 됩니다. 결측치와 이상치의 유무, 데이터의 불균형, 데이터의 비정형성 정도, 군집성, 패턴 등을 알 수 있습니다. 이러한 특성들은 경우에 따라 다음 단계인 ‘데이터 분석’ 단계에서 혼란을 가져오거나 머신러닝 학습에 어려움을 줄 수도 있습니다. 따라서 반드시 데이터 전처리 절차를 거쳐 데이터 분석에 적합한 형태로 바꿔주어야 합니다.

데이터 전처리 과정 또한 분석 목적에 따라 조금씩 차이가 있으나, 대표적인 방법들은 다음과 같습니다.

  • Null(결측치), Outlier(이상치) 처리

  • Scaling(스케일링)

  • Encoding(인코딩)

  • Feature Engineering(피처 엔지니어링)

  • Handling Imbalanced Data(불균형 데이터 처리)

여기까지 완료했다면 데이터 분석을 위한 모든 준비는 끝났습니다. 다음 단계부터는 정의된 문제에 적합한 데이터 분석 방식을 골라 데이터 분석을 실행하면 됩니다.

04. 데이터 분석

데이터 분석 단계에서는 1단계에서 정의했던 데이터분석 목표에 따라 각기 다른 방식을 선택하여 분석을 시도합니다. 이는 비즈니스의 목표와 방향성 또한 고려하여 선택하여야 합니다. 또한 경우에 따라 여러가지를 동시에 선택할 수도 있습니다. 선택할 수 있는 대표적인 방식은 다음과 같습니다.

  • 기술적(Descriptive) 분석 : 수집된 데이터를 요약하며 “무슨 일이 일어났는가”에 대한 질문에 답하는 것을 목표로 합니다. 데이터의 핵심 인사이트를 살피며 이미 벌어진 과거의 이야기에 집중합니다.

  • 진단적(Diagnostic) 분석 : 수집된 데이터를 사용하여 문제의 원인을 파악하고 패턴을 찾아내는 것입니다. “왜 이런 일이 일어났는가”에 대해 답하는 것을 목표로 합니다.

  • 예측적(Predictive) 분석 : 미래를 예측하고 감지하는 것입니다. “앞으로 어떤 일이 벌어지는가”에 대해 답하는 것을 목표로 합니다.

  • 처방적(Prescriptive) 분석 : 위 세가지 방식에서 얻은 모든 인사이트를 모아 앞으로 다가올 일에 대한 대책을 세우거나 해결책을 강구하는 것입니다. “무엇을 해야 하는가”에 대해 답하는 것을 목표로 합니다.

마찬가지로 앞서 정의한 <도서 판매 사이트 분석 프로젝트> 를 예로 들어보겠습니다.

마케터 A양은 우선, “어떤 도서가 인기가 많은가” 라는 궁금증을 해결하고 싶습니다. 이를 해결하기 위해서는 <기술적 분석> 방식을 선택해야 합니다. 도서사이트의 베스트 셀러 데이터를 수집하여 베스트 셀러의 제목과 설명에 자주 등장하는 키워드를 시각화하면 어떤 특징을 가진 도서가 인기가 많은지 알 수 있습니다.

다음으로 마케터 A양은, 신규도서들 중 “인기가 많아질 도서는 어떤것인가”를 예측하고 싶습니다. 아직까지 인기순위가 매겨지지 않은 신규도서의 경우, 수백개의 신규도서 중 더 높은 순위를 차지할 가능성이 있는 도서를 집중하여 마케팅한다면 더 좋은 실적을 낼 수 있기 때문입니다. 이를 해결하기 위해서는 <예측적 분석> 방식을 선택해야 합니다. 도서를 구성하는 특성(제목, 작가, 소개글, 가격 등)들을 기반으로 하여 순위를 예측하는 회귀분석 머신러닝 모델을 구축한다면, 신규도서에 대한 순위를 예측하여 더 높은 순위를 가질 수 있는 도서를 알 수 있습니다.

05. 마무리

지금까지 데이터분석이란 어떤 프로세스를 통해 진행하는 것인지 처음부터 끝까지 한번 살펴보았습니다. 다시 한번 복습하자면, 데이터분석이란 문제를 정의하고 그에 필요한 데이터를 수집한 후 적절한 전처리 과정 후 머신러닝 혹은 시각화와 같은 도구를 이용하여 인사이트를 도출하는 것입니다.

물론 이번 사례와 마찬가지로 4번째 데이터분석 파트는 시각화, 머신러닝/딥러닝, 대시보드 등의 도구를 선택하여 목적에 맞는 분석을 진행할 수 있습니다. [데이터분석 처음부터 끝까지] 시리즈에서는 이 중 가장 활용성이 광범위한 머신러닝을 주 분석도구로 가정하여 데이터분석의 전 과정을 차례대로 소개해드릴 예정입니다. 다음주부터는 오늘 소개한 데이터분석 전체 과정 중 문제 정의 파트를 제외하고 ‘데이터 수집 → 데이터 정제 → 데이터분석(머신러닝)’ 순서대로 보다 자세히 살펴보도록 하겠습니다.

06. 참고자료

bottom of page