목록전체 글 (420)
외로운 Nova의 작업실
- 이론 서포트 벡터 머신 : 서포트 벡터를 기반으로 결정 경계선을 정하여 예측하는 알고리즘입니다. 쉬운설명 : 강북의 한남, 강남의 이태원을 기준으로 한강의 위치를 찾아 나중에 들어오는 위치로 강남과 강북을 예측하는 알고리즘 위 사진에서 한남과 압구정은 서포트 벡터이고 그 사이 경계선을 결정 경계선이라 하고, 그 사이의 거리를 마진이라곻바니다. 이 결정 경계선을 어떻게 정할 것 인지가 SVM의 핵심입니다. 결정 경계선을 후보 1처럼 둘 수있는데, 이때 학습 에러율은 높지만 마진이 커서 예측 성공률이 올라갑니다. 결정 경계선을 후보 2처럼 둘 수 있는데, 이때 학습 에러율은 적지만 마진이 작아서 예측 성공률이 떨어집니다. 따라서 이러한 학습 에러율과 마진을 컨트롤 하기위해 COST라는 변수를 만들었습니다..
- KNN 알고리즘 KNN 알고리즘은 K nearest Neighbor의 약어로 가장 가까운 k개의 이웃을 기준으로 분류하는 것을 말합니다. KNN에서 고려할 점은 최적의 K값을 찾는 것 입니다. K값에 따라서 결과가 달라질 수 있기 때문입니다. - 실습 농구선수 포지션 추측 머신러닝 모델 만들기 먼저, pandas로 데이터셋을 불러옵니다. import pandas as pd df = pd.read_csv("../data/csv/basketball_stat.csv") df.head() 데이터셋의 특징에는 Pos, 3P, 2P TRB, AST, STL, BLK가 있습니다. 아래는 각각 설명입니다. Pos : 우리가 맞춰야할 포지션을 말합니다. 3P : 한 경기당 3점슛을 넣은 횟수 2P : 한 경기당 2점..
지도 학습 : 정답을 알려주면서 진행되는 학습 비지도 학습 : 정답이 없이 진행되는 학습 분류 : 분리된 값을 예측 회귀 : 연속되는 값을 예측 과대적합 : 데이터에서 특징을 필요이상으로 추출한 경우 발생하는 편향적 문제 과소적합 : 데이터에서 특징을 활용하지 못한 경우 발생하는 분산적 문제 혼동 행렬 : 모델의 성능을 평가할때 사용되는 지표로 x축은 예측값, y축은 실제값 (잘한,못한)(O,X) 실제 답 예측값 TP(잘한 O) O O TN(잘한 X) X X FP(못한 O) X O FN(못한 X) O X 정확도 = TP+TN / 전체 예측수 정밀도 = TP / (TP+FP), 정밀도가 낮으면 이상한놈도 O라고 한것. 재현율 = TP / (TP+FN), 재현율이 낮으면 맞은놈을 X라고 한것. F1 = 2 ..