4.1 데이터 분석 유형
키워드 : 머신러닝, 기계학습, 군집분석, 회귀분석, 분류 분석, NLP, 자연어, 지리적 분석, 지도학습, 비지도학습, 클러스터링, 딥러닝, AI, 파이썬, 데이터 분석, 데이터 시각화, EDA, 데이터 수집, 데이터 모델링
데이터 분석에 있어 머신러닝(Machine learning)과 딥러닝(Deep learning)은 두 가지 핵심 분야입니다. 이들은 데이터 분석을 통한 의사 결정 지원, 예측 모델링 등 우리의 일상 생활과 산업 전반에 깊이 영향을 미치고 있습니다. 이번 컨텐츠에서는 머신러닝과 딥러닝, NLP, 지리적분석의 개념을 알아보고 그 종류와 사례를 알아보겠습니다. 또한 이 기법들 중 가장 많이 활용되는 ‘머신러닝’ 기법에 대해서는 회귀분석/분류분석/군집분석으로 나누어 하나씩 자세히 살펴보겠습니다.
01. 머신러닝(Machine learning)
1.1 머신러닝(Machine learning, 기계학습) 이란?
머신러닝(Machine learning)을 직역하면 “기계 학습, 즉 기계가 학습을 한다” 라는 뜻입니다. 컴퓨터를 인간처럼 학습시킴으로써 스스로 학습할 수 있도록 도와주는 알고리즘이나 기술을 개발하는 분야를 말합니다. 알고리즘을 이용하여 데이터를 분석하고, 분석 결과를 스스로 학습한 후, 이를 기반으로 어떠한 판단이나 예측을 하는 것을 의미합니다.
머신러닝은 학습 방법에 따라 크게 2가지로 구분할 수 있습니다.
-
지도학습 (supervised learning)
-
비지도 학습 (unsupervised learning)

1.2 지도 학습(supervised learning)
먼저 지도 학습(supervised learning)을 알아보겠습니다. 지도 학습이란 원하는 답(label)이 정해져 있는 훈련 데이터(training set)를 사용하는 머신러닝 방식입니다. 답(label)이 지정된 데이터 세트를 이용하여 데이터를 분류하거나 결과를 정확하게 예측하도록 알고리즘을 설계합니다.
쉽게 말해 훈련 데이터와 정답을 주고서 프로그램을 학습시키는 방법입니다. 학습 후 검증 데이터를 통해 적절하게 학습되었는지 모델을 검증하는 과정을 거칩니다. 지도 학습은 스팸 메일 분류, 집값 예측, 고객 예측 이탈 등에 활용됩니다.
.png)
지도 학습(supervised learning)은 머신러닝에서 가장 많이 활용되는 방법입니다. Da,ta의 다음 컨텐츠에서 지도 학습의 예시인 회귀 분석과 분류 분석에 대해 보다 자세히 알려드리겠습니다.
1.3 비지도 학습 (unsupervised learning)
다음으로 비지도 학습(unsupervised learning)입니다. 비지도 학습이란 지도 학습과 달리 정답을 알려주지 않고 예측하는 방법입니다. 다른 말로 하면 원하는 답(label)이 정해져 있지 않은 훈련 데이터를 사용하는 머신러닝 방식입니다.
비지도 학습은 정답이 없는 데이터(Unlabelled data)를 분석함으로써 그 안에 숨어있는 패턴을 찾아내거나 데이터를 그룹화합니다. 라벨링(labelling) 되어 있지 않은 데이터로부터 패턴이나 형태를 찾아야 하기 때문에 지도학습보다는 조금 더 난이도가 있다고 할 수 있습니다. 비지도 학습은 구매 내역 별 데이터 분류, 비슷한 이미지 분류 등에 활용될 수 있습니다. 대표적인 비지도학습으로는 클러스터링(clustering)이 있습니다.
.png)
Da,ta의 다음 컨텐츠에서 비지도 학습의 예시인 군집분석(클러스터링)과 그 종류에 대해 보다 자세히 알려드리겠습니다.
💡 지도 학습과 비지도 학습의 가장 큰 차이는 데이터의 “정답” 유무입니다.
지도 학습에서 알고리즘은 label 된 데이터를 이용해 데이터를 예측하고 학습합니다.
ex) 이메일의 스팸 여부 분류
비지도 학습은 label이 지정되지 않은 데이터의 구조를 찾아가면서 자체적으로 작동합니다.
ex) 구매 행동에 따른 고객 그룹화
02. 딥러닝 (Deep learning)
2.1 딥러닝이란?
.png)
딥러닝이란 머신러닝의 하위개념에 속하는 개념으로, 층층이 쌓여진 신경망 구조를 통해 패턴을 파악하는 방법입니다. 이러한 이유로 딥러닝은 ‘깊은 학습’ 의 뜻을 가진 ‘Deep’ 러닝이라고 불립니다. 이렇게 쌓인 신경망 구조는 보이지 않는 블랙박스 구조로, 머신러닝과 달리 설명이 불가능합니다. 한편 딥러닝은 이미지나 음성 등의 패턴을 파악하는 데에 유용하게 쓰입니다.
2.2 딥러닝 사례
딥러닝의 대표적인 사례에는 사물인식이 있습니다. 사물인식은 주로 사진이나 소셜 미디어에서 얼굴, 사물, 자동차 번호판 등을 자동으로 감지하고 분류하는 기술을 의미합니다. 구글 포토의 케이스를 대표적인 예시로 들 수 있습니다. 구글 포토는 딥러닝 알고리즘을 활용하여 등록된 사진의 내용, 장소 등을 자동으로 분석하고 분류하는 기능을 제공합니다.
2.3 머신러닝과 딥러닝의 차이
딥러닝이 머신러닝의 하위개념이기 때문에 기본적으로 비슷한 면이 많지만, 차이점 또한 존재합니다.
첫번째로 딥러닝은 머신러닝보다 ‘이미지나 음성데이터의 패턴’을 파악하는 데에 더 적합합니다. 보통 음성데이터나 이미지 데이터같은 경우에는 대규모의 데이터를 요구를 하기 때문에, 딥러닝이 음성 및 이미지 데이터를 처리하는 데에 더 적합합니다. 또한 이미지나 음성의 경우 다양한 수준의 특징을 가지고 있는 복잡한 형태인 경우가 많은데, 딥러닝의 경우 다층 신경망의 구조로 이루어져 있기 때문에 다양한 수준에서 데이터를 심층적으로 학습할 수 있습니다.
두번째로 머신러닝과 딥러닝의 차이에는 ‘모델의 복잡성’이 있습니다. 전통적인 머신러닝의 경우 랜덤포레스트, 서포트벡터 머신 등 주로 사전에 정의된 비교적 간단한 모델을 사용합니다. 하지만 딥러닝의 경우 층층히 쌓인 보다 복잡하고 계층적인 신경망을 사용하기 때문에 더 복잡한 모델이라고 볼 수 있습니다.
세번째로는 필요로 하는 ‘데이터의 양’에 차이가 있습니다. 머신러닝의 경우 일반적으로 적은 양의 데이터에서도 좋은 성능을 내기가 가능합니다. 하지만 딥러닝의 경우에는 대규모의 데이터셋을 필요로 합니다.
03. NLP
3.1 NLP(Natural Language Processing)란?
Natural Language, 즉 자연어란 우리가 일상 생활에서 사용하는 언어를 말합니다. NLP는 이러한 자연어의 의미를 컴퓨터가 처리할 수 있도록 이해할 수 있는 언어로 전달하는 일을 말합니다. 컴퓨터는 텍스트를 직접적으로 이해하지 못합니다. 그래서 컴퓨터에게 텍스트를 수치로 변환해서 주면, 컴퓨터는 텍스트의 패턴이나 규칙을 찾아내기 위해 여러 처리 단계를 거칩니다.
간단하게 설명하자면, 사람이 문장을 수치로 변환한 값을 전달하면, 컴퓨터는 문장을 단어 단위로 쪼개고, 다음에 나올 단어를 예측하며 문장의 구조를 파악합니다. 또한, 문장 안에서 특정한 패턴을 찾아내고, 단어 간의 관계를 파악하여 의미를 유추합니다.
3.2 NLP의 활용 사례
NLP는 컴퓨터와 사람의 언어 사이의 상호 작용에 대해 연구하는 AI의 주요 분야 중 하나입니다.
NLP는 금융, 검색 엔진, 의료 등 다양한 분야에서 활용되고 있습니다. 그렇다면 우리 일상생활에서 많이 사용되는 NLP 사례에는 어떤 것이 있을까요?
-
자동 번역 : 대표적으로 언어 간 번역이 있습니다. 구글 번역 또는 파파고와 같은 번역 시스템은 NLP를 활용하여 다양한 언어 간 번역을 제공합니다. NLP를 이용하면 단어의 의미와 문장의 문법을 파악할 수 있기에 자연스러운 번역을 생성할 수 있습니다.
04. 지리적 분석
4.1 지리적 분석이란?
.png)
지리적 분석이란 좌표, 주소, 도시, 우편번호 등과 같은 지리정보를 처리하는데 이용하는 분석입니다. 패키지를 통해 지리정보 데이터 처리의 기하학적 연산과 시각화를 할 수 있으며 지리정보 데이터 분석에 유용하게 쓸 수 있습니다.
4.2 지리적 분석의 활용 사례
지리적 분석은 공간 데이터 분석을 위해 주로 쓰이는 기법입니다. 현실에서 지리적 분석이 활용된 사례는 다음과 같습니다.
-
시설 조사 분석 : 나라의 지도를 시각화하여 보건 시설과 같은 시설들을 조사하여 어떤 지역의 시설의 보강이 필요한지 알 수 있습니다.
-
위치 분석 : 대표적으로 캘리포니아에서 스타벅스 매장 후보지역 중 위치적으로 가장 우수한 지점을 분석한 사례가 있습니다. 지리적 분석을 통해 위치를 파악할 수 있습니다.
05. 참고자료
[코드스테이츠] 인공지능·머신러닝·딥러닝 차이점은?ㅣ개념부터 차이점까지 총 정리
[모두의 연구소] 머신러닝(Machine Learning) 이란
https://modulabs.co.kr/blog/machine-learning/
[TTA정보통신용어사전] 지도형 기계 학습, 指導型機械學習, Supervised learning
https://terms.tta.or.kr/dictionary/dictionaryView.do?word_seq=168096-9
[딥러닝을 이용한 자연어 처리 입] 01. 자연어 처리(natural language processing) 준비하기
[모두의 연구소] 자연어 처리(NLP)란 무엇일까요? 정의부터 활용사례까지
https://modulabs.co.kr/blog/natural-language-process-definition/