목록전체 글 (420)
외로운 Nova의 작업실
- 군집화 군집화는 비지도학습의 일종으로 데이터의 특징만으로 비슷한 데이터들끼리 모아 군집된 클래스로 분류합니다. 예를 들어, 한교실에 있는 학생들의 키 값만 가지고. 키큰 그룹, 키 작은 그룹으로 나누고 싶을때 사용하는 알고리즘이 바로 군집화입니다. - K 평균 알고리즘 K 평균 알고리즘은 간단하면서도 강력한 군집화 알고리즘입니다. 기본적으로 다음과 같은 순서로 진행됩니다. 1. 데이터 준비 2. 몇개의 클래스로 분류할 것 인지 설정 3. 클러스터의 최초 중심 설정 4. 데이터를 가장 가까운 클러스터로 지정 5. 클러스터 중심을 클러스터에 속한 데이터들의 가운데 위치로 변경 6. 클러스터의 중심이 바뀌지 않을때 까지 4번 5번과정을 반복 수행 예를 들어 학생들의 키와 몸무게 데이터로 키크고 건장한 체격..
- 앙상블 앙상블 기법이란 여러개의 분류 모델을 조합해서 더 나은 성능을 내는 방법입니다. 각 분류 모델의 값을 더해서 가장 최적의 값을 도출하는 기법입니다. - 배깅 배깅은 마치 상당히 연주하기 힘든 바이올린 연주곡을 두 세명의 초급 바이올린 연주자가 나누어 연주함으로써 한명의 중급 바이올린 연주자가 연주하는 것보다 더 나은 연주를 할 수 있는 것과 유사합니다. 의사결정 트리는 과대적합되기 쉽다는게 단점인데 이는 편향적이라는 의미입니다. 배깅은 한가지 분류 모델을 여러개 만들어서 서로 다른 학습 데이터로 학습시킨 후(부트스트랩), 동일한 테스트 데이터에대한 서로다른 예측값을 투표로 통해(어그리게이팅) 가장 높은 예측값으로 최종 결론을 내리는 기법입니다. 즉, 의사결정 트리를 일부러 편향적인 모델을 여러..
- 나이브 베이즈 나이브 베이즈는 확률 기반 머신러닝 분류 알고리즘입니다. 나이브 베이즈를 예시를 통해 이해해보겠습니다. 치킨집에서 손님이 주문을 할때 맥주를 주문할지 안할지 예측해보겠씁니다. 이때 다음과 같은 기존 손님들의 주문 내역이 있습니다. 저녁에 손님이 한 명 와서 주문을 합니다. 이 경우 손님이 맥주를 주문할 확률은 조건부 확률이게됩니다. 즉, 저녁에 와서 주문을 할 확률이기 떄문입니다. 이때 나이브 베이즈는 조건부 확률을 계산하는 자신만의 공식으로 계산하게됩니다. 결국 답은 저녁인 5개중에 3개가 주문을 했기때문에 0.6이라는 값을 도출해냅니다. 이런식으로 특징을 많이 뽑아내어 경우의 수를 만들고 나이브 베이즈에 학습시키면 조건부 확률에따라 답을 도출해냅니다. - 가우시안 나이브 베이즈 가우..