| hyeju.kim

인공지능 및 기계학습 개론 . 2강 Fundamentals of Machine Learning

머신러닝의 정의

rule based learning
- version space: general 과 specific 사이
- candidate elimination algorithm 이 verision space 만드는 알고리즘
- 가정이 perferct world라서 보통 현실에서는 한계가 있음.

*몇몇 입력 변수를 바탕으로 목표 변수의 값을 예측하는 모델을 생성

참고 : archive.ics.uci.edu/ml/datasets/Credit+Approval -> ml algorithm 성능 측정할 때 사용.

하나의 예측변수를 활용하여 타겟 변수 예측.

entropy (of a random variable)란??

불확실성을 측정하는 수단이다. (measure the uncertainty of a feature variable)

random variable의 확률분포가 알려지지 않은 만큼, 불확실성이 커진다.

information gain이란?

예측변수1의 IG = entropy(타겟변수) - entropy(타겟변수

예측변수1)

information gain이 가장 큰 변수를 선택하여 타겟변수 예측

deicision tree의 한계
- decision tree의 크기가 좋을 수록(node 높일수록) 반드시 좋은 것은 아니다. overfitting 문제

entropy 에 대해 ??

주어진 데이터를 나타내는 최적의 직선을 찾아냄으로써 input (x)와 output (y) 사이의 관계를 도출해내는 과정

deep learning 에서는 cross entropy 라는 개념도 있는데, 한꺼번에 설명해주는 글을 찾았다.

https://medium.com/@vijendra1125/understanding-entropy-cross-entropy-and-softmax-3b79d9b23c8a