머신러닝

수업정리

Chapter 1. 인공지능 개요

인공지능
머신러닝
딥러닝
머신러닝 vs 딥러닝

Chapter 2. 머신러닝의 분류

지도학습
비지도학습
강화학습

Chapter 3. 지도학습 알고리즘

분류 (Classification)
회귀 (Regression)
KNN
SVM
의사결정나무
로지스틱 회귀

Chapter 4. 비지도학

군집(Clustering)
K-Means
DBSCAN

Chapter 5. 강화학습

Q-Learning
Deep Q Learning

Chapter 6. 핵심 개념

가중치 (Weight)
과적합 (Overfitting)

인공지능, 머신러닝, 딥러닝의 관계

1) 인공지능

인간이 가진 지적 능력을 컴퓨터를 통해 구현하는 기술
인공지능의 구분
- 강인공지능(Strong AI) : 인간의 능력을 초월한 성능을 가진 AI
- 약인공지능(Weak AI) : 특정 영역에서 도구로 사용하기 위해 설계된 AI

2) 머신러닝

컴퓨터를 인간처럼 학습 -> 컴퓨터 스스로가 새로운 규칙 발견
머신러닝은 기본적 알고리즘을 이용해 데이터를 분석하고, 분석을 통해 학습하며, 학습한 내용을 기반으로 판단 혹은 예측함
머신러닝이 스스로 학습하여 데이터를 처리하는 과정
- 빅데이터 입력
- 데이터 분석 -> 모델
- 모델을 이용하여 의사결정 및 예측 등을 수행

3) 딥러닝

인공신경망(ANN, Artificial Neural Network)
- 여러 뉴런이 서로 연결되어 있는 구조의 네트워크

딥러닝(Depp Learning)
- 여러 은닉충을 가진 인공신경망을사용하여 머신러닝 학습을 수행하는 기술
- 딥러닝의 '딥(Deep)'은 연속된 신경망 층(layer)을 깊게(deep) 쌓는다는 의미
- 신경망이 깊을 수록 성능 향상

4) 머신러닝과 딥러닝의 차이점

인간의 개입 유무
- 머신러닝은 사람이 학습 데이터에 레이블(정답)을 알려주거나 데이터의 특징을 추출하는 등 어느정도 개입을 한다.
- 딥러닝은 인간의 개입 없이 컴퓨터가 스스로 학습한다.

데이터 의존도(Data Dependencies)
- 딥러닝은 주어진 문제를 해결하기 위해 중요한 특징을 직접 추출
  - 데이터의 양이 충분하지 않으면 정확한 특징을 추출할 수 없음
  - 충분한 양의 데이터가 주어진다면 사람이 인지히지 못한 중요한 특징들까지 찾아낼 수 있을 정도로 좋은 성능 발휘
심층 신경망의 사용 여부
- 딥러닝은 심층신경망을 이용하여 입력 데이터에서 특징을 추출하고 스스로 결과를 도출
- 심층신경망을 사용하는 것은 딥러닝만의 뚜렷한 특징

머신러닝의 분류

1) 머신러닝의 분류

지도학습 : 예측이나 분류를 위해 사용
비지도 학습 : 군집을 위해 사용
강화학습 : 환경에서 취하는행동에 대한 보상을 이용하여 학습 진행

2) 지도학습 (Supervised Learning)

문제와 답을 함께 학습함으로써 미지의 문제에 대한 올바른 답을 예측하는 학습
예측과 분류로 학습을 함

3) 비지도 학습 (Unsupervised Learning)

지도학습과 다르게 조력자의 도움없이 컴퓨터 스스로 학습하는 형태
컴퓨터가 훈련데이터를 이용하여 데이터들 간의 규칙성을 찾음
x와 y의 관계를 파악했던 지도학습과는 달리, 비지도학습은 x 간의 관계를 스스로 파악
군집으로 학습함.

4) 강화학습(Reinforcement Learning)

자신이 한 행동에 대한 보상(Reward)을 받으며 학습하는 것
컴퓨터가 주어진 상태에 대해 최적의 행동을 선택하도록 학습하는 방법
강화학습을 이해하기 위해 알아야 할 개념들
- 에이전트(Agent) : 주어진 문제 상황에서 행동하는 주체
- 상태(State) : 현재 시점에서의 상황
- 행동(Action) : 플레이어가 취할 수 있는 선택지
- 보상(Reward) : 플레이어가 어떤 행동을 했을 때 따라오는 이득
- 환경(Environment) : 문제 그 자체를 의미
- 관찰(Observation) : 에이전트가 수집한(보고 듣는) 환경에 대한 정보
강화학습은 에이전트가 상태를 계속 주시하면서 보상이 높은 쪽으로 학습하게 됨

머신러닝 알고리즘의 유형

1) 머신러닝 알고리즘의 유형

지도학습 : 분류와 예측
비지도학습 : 군집
강화학습 : 큐러닝과 딥큐러닝

2) 분류(Classification)

레이블이 포함된 데이터를 학습하고 유사한 성질을 갖는데이터끼리 분류한 후, 새로 입력된 데이터가 어느 그룹에 속하는지를 찾아내는 기법
분류의 종류
- 이진분류(Binary Classification) : 데이터를 2개의그룹으로 분류
- 다중 분류(Multiclass Classification) : 데이터를 3개의 그룹 이상으로 분류

3) 분류에 해당하는 알고리즘

k-최근접 이웃(KNN)
서포트 벡터 머신(SVM)
의사결정나무(Decision Tree)
로지스틱 회귀(Logistic Regression)

4) 분류 | K - 최근접 이웃 (KNN, K-Nearest Neighbors)

새로운 데이터가 들어왔을 때 기존 데이터의 그룹(K개의 그룹)중 어떤 그룹에 속하는지 분류하는 알고리즘

KNN은 학습 데이터 내에 존재하는 노이즈의 영향을 크게 받지 않으며, 학습 데이터 수가 많을 때 꽤 효과적인 알고리즘
하지만 어떤 하이퍼파라미터가 분석에 적합한지는 불분명해, 데이터 각각의 특성에 맞게 연구자가 임의로 선정해야 한다는 단점이 있음

노이즈(Noise) - 데이터에 무작위 오류(Random Error)또는 분산(Variance)이 존재하는것임.

5) 분류 | 서포터 벡터 머신 (SVM, Support Vector Machine)

주어진 데이터가 어느 그룹에 속하는지 분류하는 모델
두 분류 사이의 여백을 의미하는 마진을 최대화하는 방향으로 데이터를 분류
SVM은 마진을 극대화하는 선을 찾아 분류하므로 마진이 크면 클수록 새로운 데이터가 들어오더라도 잘 분류할 가능성이 높아짐
SVM은 사용 방법이 쉽고 예측 정확도가 높다는 장점
하지만 모델 구축에 시간이 오래 걸리고 결과에 대한 설명력이 떨어지는 단점

6) 분류 | 의사결정나무(Decision Tree)

의사결정 규칙을 나무 형태로 분류하는 분석 방법
분석과정이 직관적이고 이해하기 쉬움
인공신경망의 경우 분석 결과에 대한 설명이 어려운 블랙박스 모델인 반면, 의사결정 나무는 분석과정을 눈으로도 관측할 수 있음
그래서 결과에 대한 명확한 설명이 필요할 때 많이 사용함

7) 분류 | 로지스틱 회귀(Logistic Regression)

데이터가 어떤 범주에 속할 확률을 0~1 사이의 값으로 정해놓고, 그 확률에 따라 가능성이 더 높은 범주에 속하는 것으로 분류해 주는 지도학습 알고리즘
회귀(Regression)
- 연속형 변수들에 대해 변수 간 관계를 추정하는 분석 방법이며, 선형 회귀는 독립변수와 종속변수가 직선의 형태를 취하는 관계

이분변수, 이산형변수, 연속형 변수

이분변수
- 두 개의 값만을 가질 수 있는 변수

로지스틱 회귀는 선형 회귀와는 다르게 종속변수가 범주형 데이터
즉, 입력 데이터가 주어졌을 때 해당 데이터의 결과가 0과 1 사이의 값을 가짐
결괏값이 정해진 범주 내에서 나오므로 확률적인 의미에서 사건 발생 가능성을 예측하는 데 사용할 수 있음
선형 회귀는 종속변수로 올 수 있는 값에 대한 제약이 없는 반면, 로지스틱 회귀의 종속변수는 값이 제한적이라는 것에 주목해야 함

8) 분류 | 회귀

회귀는 연속형 변수를 예측하는데 사용됨, 즉 연속적인 숫자나 실수를 예측함( 예 : 주식, 부동산 가격 예측)
종속변수와 독립변수 간의 관계를 살펴 볼 때 유용하게 사용

군집화

군집 (Cluster)
- 비슷한 특징을 가진 데이터들의 집단
군집화 (Clustering)
- 데이터가 주어졌을 때, 그 데이터들을 유사한 정도에 따라 군집으로 분류하는 것

1 ) K-Means Clustering(k - 평균 군집화)

'k'는 주어진 데이터로부터 묶여질 그룹(군집의 수)
'Means'는각 군집의 중심과 데이터들의 평균거리를 의미
클러스터의 중심을 (Centroids)이라고 함

2 ) 밀도기반 클러스터링(DMSCAN)

밀도를 기반으로 군집화하는 군집 알고리즘
밀도기반 클러스터링은 데이터들의 분포
밀도기반 클러스터링을 이해하기 위한 관련 용어
» ε(Epsilon, 거리) : 하나의 점으로부터의 반경
» minPth(Minimum Points, 최소점) : 군집을 이루기 위한 최소한의 데이터 수

3) 밀도기반 클러스터링의 진행 과정(ε=5cm, minPth=4라고 가정)
1단계 : 한 점을 중심으로 반경 5cm거리에 4개의 데이터가 있는지
(minPth=4를 만족하는지) 확인

2단계 : 이동한 중심점 3을 기준으로 1단계를 반복하는데, 3을 기준으로 반 5cm 이내에 데이터가 4개 초과 있는지 확인하면, 역시 데이터의 수가 4보다 작으므로 이번에는 중심점을 4로 지정함
3단계 : 4를 중심점으로 했을 때 데이터의 수가 4를 초과하므로 군집이 생성

K-평균 군집화와 달리 밀도기반 클러스터링은 클러스터 수를 지정할 필요가 없음
– 더 중요한 것은 밀도기반 클러스터링은 K-평균 군집화가 찾을 수 없는 임의의 모양들을 가질 수 있다는 점임
– 예를 들어, 밀도기반 클러스터링은 [그림 8-26]의 첫 번째 그림과 같이 다른 군집으로 둘러 싸인 상태에서 또 다른 군집을 가질 수 있음

강화학습 기술

1) 큐러닝(Q-Learning)

특정 상태에서 어떤 결정을 내려야 미래 보상이 극대화 될 것인지에 대한 정책을 지속적으로 업데이트

모델없이학습하는 대표적인 강화학습 알고리즘

보상값을 업데이트 해 나가면서 강화학습을 진행함

2) 딥큐러닝(Depp Q Learning)

큐러닝 + 신경망을 결합한 알고리즘

큐러닝에서는 보상값을업데이트 하기위해 테이블을 이용했다면, DQN에서는 네트워크(신경망)을 이용

Q값은 전략에 따라 행동했을 때 미래에 보상들에 대한 기댓값의 총합이다.

결국 Q러닝과 DQN모두 Q값이 높은 쪽으로 행동하는 것을목표로한다.

가중치 (Weight)

입력 신호가 출력에 미치는 중요도를 조절하는 매개변수

과적합(Overfitting)

훈련 데이터를너무 과하게 학습하여 실제 데이터를 분석할 때는 성능이 좋지 못한 것을 의미
문제의 복잡도에 비해 데이터가 현저히부족한 경우, 즉 문제 된 전체 공간을 학습데이터가 아우르지 못하고 일부 경우에만 집중했을 경우 발생됨

'Programing' 카테고리의 다른 글

Python - Class (0)	2026.04.17
Python - List (0)	2026.04.14
빅데이터 (0)	2026.04.09
인공지능을 실현하기 위한 기술 (3)	2026.04.09
[speakLogs] #2 OpenAPI-Key 발급받기 (0)	2026.03.30

방해금지모드

머신러닝

인공지능, 머신러닝, 딥러닝의 관계

머신러닝의 분류

머신러닝 알고리즘의 유형

군집화

강화학습 기술

'Programing' 카테고리의 다른 글

티스토리툴바

머신러닝

인공지능, 머신러닝, 딥러닝의 관계

머신러닝의 분류

머신러닝 알고리즘의 유형

군집화

강화학습 기술

'Programing' 카테고리의 다른 글

관련글

티스토리툴바