목록AI/machine-learning (14)
외로운 Nova의 작업실
- 의사 결정 트리 의사결정 트리는 데이터 분류 및 회귀에 사용되는 지도학습 알고리즘입니다. 의사결정 트리의 가장 큰 장점은 다른 알고리즘에 비해 결괏값이 왜 어떻게 나왔는지 이해하기 쉽다는 것입니다. 또한 수학적인 지식이 없어도 결과를 해석하고 이해하기 쉬우며, 수치 데이터 및 범주 데이터에 모두 사용 가능하다는 장점이 있습니다. 단점으로는 과대적합의 위험이 높다는 것입니다. 의사결정 트리 학습시 적절한 리프 노드의 샘플 개수와 트리의 깊이에 제한을 둬서 학습 데이터에 너무 모델이 치우치지 않게 주의해야합니다. - 의사 결정 트리 특징 의사결정트리로 사람의 성별이 무엇인지 맞춰본다고하면 아래처럼 한번의 질문으로 바로 맞출 수 있을 것입니다. 이러한 질문을 의미있는 질문이라고 하며 이러한 질문을 가장 먼..
- 이론 서포트 벡터 머신 : 서포트 벡터를 기반으로 결정 경계선을 정하여 예측하는 알고리즘입니다. 쉬운설명 : 강북의 한남, 강남의 이태원을 기준으로 한강의 위치를 찾아 나중에 들어오는 위치로 강남과 강북을 예측하는 알고리즘 위 사진에서 한남과 압구정은 서포트 벡터이고 그 사이 경계선을 결정 경계선이라 하고, 그 사이의 거리를 마진이라곻바니다. 이 결정 경계선을 어떻게 정할 것 인지가 SVM의 핵심입니다. 결정 경계선을 후보 1처럼 둘 수있는데, 이때 학습 에러율은 높지만 마진이 커서 예측 성공률이 올라갑니다. 결정 경계선을 후보 2처럼 둘 수 있는데, 이때 학습 에러율은 적지만 마진이 작아서 예측 성공률이 떨어집니다. 따라서 이러한 학습 에러율과 마진을 컨트롤 하기위해 COST라는 변수를 만들었습니다..
- KNN 알고리즘 KNN 알고리즘은 K nearest Neighbor의 약어로 가장 가까운 k개의 이웃을 기준으로 분류하는 것을 말합니다. KNN에서 고려할 점은 최적의 K값을 찾는 것 입니다. K값에 따라서 결과가 달라질 수 있기 때문입니다. - 실습 농구선수 포지션 추측 머신러닝 모델 만들기 먼저, pandas로 데이터셋을 불러옵니다. import pandas as pd df = pd.read_csv("../data/csv/basketball_stat.csv") df.head() 데이터셋의 특징에는 Pos, 3P, 2P TRB, AST, STL, BLK가 있습니다. 아래는 각각 설명입니다. Pos : 우리가 맞춰야할 포지션을 말합니다. 3P : 한 경기당 3점슛을 넣은 횟수 2P : 한 경기당 2점..
지도 학습 : 정답을 알려주면서 진행되는 학습 비지도 학습 : 정답이 없이 진행되는 학습 분류 : 분리된 값을 예측 회귀 : 연속되는 값을 예측 과대적합 : 데이터에서 특징을 필요이상으로 추출한 경우 발생하는 편향적 문제 과소적합 : 데이터에서 특징을 활용하지 못한 경우 발생하는 분산적 문제 혼동 행렬 : 모델의 성능을 평가할때 사용되는 지표로 x축은 예측값, y축은 실제값 (잘한,못한)(O,X) 실제 답 예측값 TP(잘한 O) O O TN(잘한 X) X X FP(못한 O) X O FN(못한 X) O X 정확도 = TP+TN / 전체 예측수 정밀도 = TP / (TP+FP), 정밀도가 낮으면 이상한놈도 O라고 한것. 재현율 = TP / (TP+FN), 재현율이 낮으면 맞은놈을 X라고 한것. F1 = 2 ..