본문 바로가기
Programing

머신러닝

by xuswns 2026. 4. 13.
더보기

수업정리


 

Chapter 1. 인공지능 개요

  • 인공지능
  • 머신러닝
  • 딥러닝
  • 머신러닝 vs 딥러닝

Chapter 2. 머신러닝의 분류

  • 지도학습
  • 비지도학습
  • 강화학습

Chapter 3. 지도학습 알고리즘

  • 분류 (Classification)
  • 회귀 (Regression)
  • KNN
  • SVM
  • 의사결정나무
  • 로지스틱 회귀

Chapter 4. 비지도학

  • 군집(Clustering)
  • K-Means
  • DBSCAN

Chapter 5. 강화학습

  • Q-Learning
  • Deep Q Learning

Chapter 6. 핵심 개념

  • 가중치 (Weight)
  • 과적합 (Overfitting)

 인공지능, 머신러닝, 딥러닝의 관계

1) 인공지능

  • 인간이 가진 지적 능력을 컴퓨터를 통해 구현하는 기술
  • 인공지능의 구분
    •  강인공지능(Strong AI) : 인간의 능력을 초월한 성능을 가진 AI
    •  약인공지능(Weak AI) : 특정 영역에서 도구로 사용하기 위해 설계된 AI  

2) 머신러닝

  • 컴퓨터를 인간처럼 학습 -> 컴퓨터 스스로가 새로운 규칙 발견
  • 머신러닝은 기본적 알고리즘을 이용해 데이터를 분석하고, 분석을 통해 학습하며, 학습한 내용을 기반으로 판단 혹은 예측함
  • 머신러닝이 스스로 학습하여 데이터를 처리하는 과정
    • 빅데이터 입력
    • 데이터 분석 -> 모델
    • 모델을 이용하여 의사결정 및 예측 등을 수행 

3) 딥러닝

  • 인공신경망(ANN, Artificial Neural Network)
    • 여러 뉴런이 서로 연결되어 있는 구조의 네트워크

  • 딥러닝(Depp Learning)
    • 여러 은닉충을 가진 인공신경망을사용하여 머신러닝 학습을 수행하는 기술
    • 딥러닝의 '딥(Deep)'은 연속된 신경망 층(layer)을 깊게(deep) 쌓는다는 의미
    • 신경망이 깊을 수록 성능 향상 

4) 머신러닝과 딥러닝의 차이점

  • 인간의 개입 유무
    • 머신러닝은 사람이 학습 데이터에 레이블(정답)을 알려주거나 데이터의 특징을 추출하는 등 어느정도 개입을 한다.
    • 딥러닝은 인간의 개입 없이 컴퓨터가 스스로 학습한다.

  • 데이터 의존도(Data Dependencies)
    • 딥러닝은 주어진 문제를 해결하기 위해 중요한 특징을 직접 추출
      • 데이터의 양이 충분하지 않으면 정확한 특징을 추출할 수 없음
      • 충분한 양의 데이터가 주어진다면 사람이 인지히지 못한 중요한 특징들까지 찾아낼 수 있을 정도로 좋은 성능 발휘
  • 심층 신경망의 사용 여부
    • 딥러닝은 심층신경망을 이용하여 입력 데이터에서 특징을 추출하고 스스로 결과를 도출
    • 심층신경망을 사용하는 것은 딥러닝만의 뚜렷한 특징 

 


 머신러닝의 분류

1) 머신러닝의 분류

  • 지도학습 : 예측이나 분류를 위해 사용
  • 비지도 학습 : 군집을 위해 사용
  • 강화학습 : 환경에서 취하는행동에 대한 보상을 이용하여 학습 진행

2) 지도학습 (Supervised Learning)

  • 문제와 답을 함께 학습함으로써 미지의 문제에 대한 올바른 답을 예측하는 학습
  • 예측과 분류로 학습을 함

3) 비지도 학습 (Unsupervised Learning)

  • 지도학습과 다르게 조력자의 도움없이 컴퓨터 스스로 학습하는 형태
  • 컴퓨터가 훈련데이터를 이용하여 데이터들 간의 규칙성을 찾음
  • x와 y의 관계를 파악했던 지도학습과는 달리, 비지도학습은 x 간의 관계를 스스로 파악
  • 군집으로 학습함. 

4) 강화학습(Reinforcement Learning)

  • 자신이 한 행동에 대한 보상(Reward)을 받으며 학습하는 것
  • 컴퓨터가 주어진 상태에 대해 최적의 행동을 선택하도록 학습하는 방법
  • 강화학습을 이해하기 위해 알아야 할 개념들
    • 에이전트(Agent) : 주어진 문제 상황에서 행동하는 주체
    • 상태(State) : 현재 시점에서의 상황
    •  행동(Action) : 플레이어가 취할 수 있는 선택지
    • 보상(Reward) : 플레이어가 어떤 행동을 했을 때 따라오는 이득
    • 환경(Environment) : 문제 그 자체를 의미
    • 관찰(Observation) : 에이전트가 수집한(보고 듣는) 환경에 대한 정보
  • 강화학습은 에이전트가 상태를 계속 주시하면서 보상이 높은 쪽으로 학습하게 됨

 


 머신러닝 알고리즘의 유형

1) 머신러닝 알고리즘의 유형

  • 지도학습 : 분류와 예측
  • 비지도학습 : 군집
  • 강화학습 : 큐러닝과 딥큐러닝

2) 분류(Classification)

  • 레이블이 포함된 데이터를 학습하고 유사한 성질을 갖는데이터끼리 분류한 후, 새로 입력된 데이터가 어느 그룹에 속하는지를 찾아내는 기법
  • 분류의 종류
    • 이진분류(Binary Classification) : 데이터를 2개의그룹으로 분류
    • 다중 분류(Multiclass Classification) : 데이터를 3개의 그룹 이상으로 분류 

3) 분류에 해당하는 알고리즘

  • k-최근접 이웃(KNN)
  • 서포트 벡터 머신(SVM)
  • 의사결정나무(Decision Tree)
  • 로지스틱 회귀(Logistic Regression)

4) 분류 |  K - 최근접 이웃 (KNN, K-Nearest Neighbors)

  • 새로운 데이터가 들어왔을 때 기존 데이터의 그룹(K개의 그룹)중 어떤 그룹에 속하는지 분류하는 알고리즘

  • KNN은 학습 데이터 내에 존재하는 노이즈의 영향을 크게 받지 않으며, 학습 데이터 수가 많을 때 꽤 효과적인 알고리즘
  • 하지만 어떤 하이퍼파라미터가 분석에 적합한지는 불분명해, 데이터 각각의 특성에 맞게 연구자가 임의로 선정해야 한다는 단점이 있음

노이즈(Noise) - 데이터에 무작위 오류(Random Error)또는 분산(Variance)이 존재하는것임. 

 

5) 분류 | 서포터 벡터 머신 (SVM, Support Vector Machine)

  • 주어진 데이터가 어느 그룹에 속하는지 분류하는 모델
  • 두 분류 사이의 여백을 의미하는 마진을 최대화하는 방향으로 데이터를 분류
  •  SVM은 마진을 극대화하는 선을 찾아 분류하므로 마진이 크면 클수록 새로운 데이터가 들어오더라도 잘 분류할 가능성이 높아짐
  • SVM은 사용 방법이 쉽고 예측 정확도가 높다는 장점
  • 하지만 모델 구축에 시간이 오래 걸리고 결과에 대한 설명력이 떨어지는 단점

6) 분류 | 의사결정나무(Decision Tree)

  • 의사결정 규칙을 나무 형태로 분류하는 분석 방법
  • 분석과정이 직관적이고 이해하기 쉬움
  • 인공신경망의 경우 분석 결과에 대한 설명이 어려운 블랙박스 모델인 반면, 의사결정 나무는 분석과정을 눈으로도 관측할 수 있음
  • 그래서 결과에 대한 명확한 설명이 필요할 때 많이 사용함 

7) 분류 | 로지스틱 회귀(Logistic Regression)

  • 데이터가 어떤 범주에 속할 확률을 0~1 사이의 값으로 정해놓고, 그 확률에 따라 가능성이 더 높은 범주에 속하는 것으로 분류해 주는 지도학습 알고리즘
  • 회귀(Regression)
    • 연속형 변수들에 대해 변수 간 관계를 추정하는 분석 방법이며, 선형 회귀는 독립변수와 종속변수가 직선의 형태를 취하는 관계

이분변수, 이산형변수, 연속형 변수

  • 이분변수
    • 두 개의 값만을 가질 수 있는 변수 

  • 로지스틱 회귀는 선형 회귀와는 다르게 종속변수가 범주형 데이터
  • 즉, 입력 데이터가 주어졌을 때 해당 데이터의 결과가 0과 1 사이의 값을 가짐
  • 결괏값이 정해진 범주 내에서 나오므로 확률적인 의미에서 사건 발생 가능성을 예측하는 데 사용할 수 있음
  • 선형 회귀는 종속변수로 올 수 있는 값에 대한 제약이 없는 반면, 로지스틱 회귀의 종속변수는 값이 제한적이라는 것에 주목해야 함

8) 분류 | 회귀

  • 회귀는 연속형 변수를 예측하는데 사용됨, 즉 연속적인 숫자나 실수를 예측함( 예 : 주식, 부동산 가격 예측)
  • 종속변수와 독립변수 간의 관계를 살펴 볼 때 유용하게 사용


군집화

  • 군집 (Cluster)
    • 비슷한 특징을 가진 데이터들의 집단
  • 군집화 (Clustering)
    • 데이터가 주어졌을 때, 그 데이터들을 유사한 정도에 따라 군집으로 분류하는 것

 

1 ) K-Means Clustering(k - 평균 군집화)

  • 'k'는 주어진 데이터로부터 묶여질 그룹(군집의 수)
  • 'Means'는각 군집의 중심과 데이터들의 평균거리를 의미
  • 클러스터의 중심을 (Centroids)이라고 함  

2 ) 밀도기반 클러스터링(DMSCAN)

  • 밀도를 기반으로 군집화하는 군집 알고리즘
  •  밀도기반 클러스터링은 데이터들의 분포
  • 밀도기반 클러스터링을 이해하기 위한 관련 용어
    » ε(Epsilon, 거리) : 하나의 점으로부터의 반경
    » minPth(Minimum Points, 최소점) : 군집을 이루기 위한 최소한의 데이터 수

 

3) 밀도기반 클러스터링의 진행 과정(ε=5cm, minPth=4라고 가정)
1단계 : 한 점을 중심으로 반경 5cm거리에 4개의 데이터가 있는지
(minPth=4를 만족하는지) 확인

 2단계 : 이동한 중심점 3을 기준으로 1단계를 반복하는데, 3을 기준으로 반 5cm 이내에 데이터가 4개 초과 있는지 확인하면, 역시 데이터의 수가 4보다 작으므로 이번에는 중심점을 4로 지정함
3단계 : 4를 중심점으로 했을 때 데이터의 수가 4를 초과하므로 군집이 생성

 

K-평균 군집화와 달리 밀도기반 클러스터링은 클러스터 수를 지정할 필요가 없음
– 더 중요한 것은 밀도기반 클러스터링은 K-평균 군집화가 찾을 수 없는 임의의 모양들을 가질 수 있다는 점임
– 예를 들어, 밀도기반 클러스터링은 [그림 8-26]의 첫 번째 그림과 같이 다른 군집으로 둘러 싸인 상태에서 또 다른 군집을 가질 수 있음


강화학습 기술

1) 큐러닝(Q-Learning)

특정 상태에서 어떤 결정을 내려야 미래 보상이 극대화 될 것인지에 대한 정책을 지속적으로 업데이트

모델없이학습하는 대표적인 강화학습 알고리즘 

보상값을 업데이트 해 나가면서 강화학습을 진행함

 

2) 딥큐러닝(Depp Q Learning)

큐러닝 + 신경망을 결합한 알고리즘

큐러닝에서는 보상값을업데이트 하기위해 테이블을 이용했다면, DQN에서는 네트워크(신경망)을 이용

Q값은 전략에 따라 행동했을 때 미래에 보상들에 대한 기댓값의 총합이다.

결국 Q러닝과 DQN모두 Q값이 높은 쪽으로 행동하는 것을목표로한다.   


가중치 (Weight)

  • 입력 신호가 출력에 미치는 중요도를 조절하는 매개변수 

과적합(Overfitting)

  • 훈련 데이터를너무 과하게 학습하여 실제 데이터를 분석할 때는 성능이 좋지 못한 것을 의미
  • 문제의 복잡도에 비해 데이터가 현저히부족한 경우, 즉 문제 된 전체 공간을 학습데이터가 아우르지 못하고 일부 경우에만 집중했을 경우 발생됨  

'Programing' 카테고리의 다른 글

Python - Class  (0) 2026.04.17
Python - List  (0) 2026.04.14
빅데이터  (0) 2026.04.09
인공지능을 실현하기 위한 기술  (3) 2026.04.09
[speakLogs] #2 OpenAPI-Key 발급받기  (0) 2026.03.30