머신러닝이란
컴퓨터가 데이터를 학습하는 알고리즘과 기술을 통칭한다.
1. 지도학습 (Supervised Learning)
- 입력데이터(x)와 타겟 값(y)을 알고있는 데이터를 학습하여, 이들의 관계를 모델링하는 학습방법
- 새로운 데이터에 대한 타겟값을 예측하는 데에 사용
- 함수로 표현하면
Y = F(X)
Y는 타겟값
F는 모델
X는 입력데이터
Y의 형태에따라 분류(Classification), 회귀(Regression) 로 나뉜다
- 분류(Classification)
- 타겟변수 Y가 이산형 변수인 경우
- 이산형 변수 : 특정한 값만 가질 수 있는 변수 (가질 수 있는 값이 유한적), 각 값이 몇 번 나타났는지 셀 수 있음
예) X라는 사진데이터들을 넣었을 때 사람인지 동물인지 분류하는 모델을 만들었다면
Y는 동물, 사람 이렇게 두가지로 나뉠 수 있다.
동물, 사람의 결과가 몇번 나왔는지 셀 수 있다.
- 회귀(Regression)
- 타겟변수 Y가 연속형 변수인 경우
- 연속형 변수 : 연속 범위 내에서 임의의 값을 가질 수 있는 변수 (가질 수 있는 값이 무한정)
예) Y의 값이 32.5, 100 , 21, 48 등으로 임의의 값들이 나올 때,
KOSPI지수, 이번달 매출 예측, 이미지에서 물체의 위치(좌표)
2. 비지도학습 (Unsupervised Learning)
- 지도학습과 달리, 타겟값(Y)이 없는 입력 데이터(X)만을 학습하는 방법
- 입력 데이터에 내재되어 있는 특성을 찾아내는 용도
- 군집화(Clustering) : 유사한 포인트들끼리 그룹을 만드는 방법
- 잠재 변수 모델(Latent Variable Model) : 표현된 데이터 속에 내재되어 있는 요인을 찾는 것
- 밀도 추정(Density Estimation) : 관측된 데이터를 이용하여 데이터 생성에 대한 확률 밀도 함수를 추정
- 가우시안 혼합모델 (Gaussian Mixture Model, GMM)
- 커널 밀도 추정 (Kernel Density Estimation, KDE)
- 이상치 탐지(Novelty(or Anomaly) Detection) : 다른 포인트들과 비교하여 많이 벗어나 있는 포인트를 찾아내기
- 인공신경망 기반 비지도학습 , 예) Generative Adversarial Network(GAN)
3. 강화학습 (Reinforcement Learning)
- 자신이 한 행동에 대한 '보상'을 바탕으로 목적을 달성하는 학습
- 아이가 걷는 과정을 배우는 것, 자전거를 배우는 과정과 유사
- 행동심리학에서 영감을 받음
'컴퓨터 공부 > 데이터사이언스' 카테고리의 다른 글
정형 데이터/ 비정형 데이터 (0) | 2021.12.28 |
---|---|
크롤링이란(Crawling) (0) | 2021.12.28 |
텐서플로우(Tensorflow)와 파이토치(PyTorch) (0) | 2021.12.27 |
딥러닝(Deep Learning)이란? (0) | 2021.12.26 |
신경망 모델(Neural Networks) (0) | 2021.12.25 |
댓글