-
빅데이터분석기사 실기 준비 - Day 5 (1)자격증/빅데이터분석기사 2021. 11. 30. 22:29반응형
<범주 변수의 변환>
pd.get_dummies(X)
- 원핫인코딩 기능
- train과 test로 데이터를 나누기 전에 적용
- 원핫 인코딩 과정
먼저 숫자로 되어있는 범주를 replace를 사용해 문자로 변환
문자로 변환한 결과
pd.get_dummies(X) 적용
<데이터셋 분할과 모델 검증>
랜덤 없는 교차검증: cross_val_score
- train data를 모두 한 번에 사용하지 않고 5개 그룹으로 나누어 이 중 한 그룹을 빼고 4개 그룹만 훈련을 하며 이를 5번 반복함
- 데이터의 순서가 1~30번, 31~60번 ... 등 순서대로 나누어 투입됨
랜덤 있는 교차검증: KFold
- 그룹을 나눌 때 위와는 다르게 무작위로 섞어서 뽑음(shuffle=True)
임의분할 교차검증: ShuffleSplit
- train data와 test data를 구성할 때 다른 교차검증에 사용되었던 데이터도 랜덤으로 선택되게 하는 방법임
- 따라서 전체 데이터 중 일부는 train data or test data 어디에서 선택되지 않을 수도 있음
모델 훈련 및 예측 및 정확도
<모델훈련과 세부튜닝>
- 하이퍼파라미터를 찾는 방법은 그리드탐색과 랜덤 탐색이 있음
그리드탐색(Grid Search)
- GridSearchCV(estimators, param_grid, cv=5, return_train_score=True)
랜덤탐색(random search)
- RandomizedSearchCV( estimators, param_distributions=..., cv=5, return_train_score=True)
<모델 평가>
- roc 값 구하기
반응형'자격증 > 빅데이터분석기사' 카테고리의 다른 글
빅데이터분석기사 실기 준비 - Day 6 (0) 2021.12.02 빅데이터분석기사 실기 준비 - Day 5 (2) (0) 2021.12.01 빅데이터분석기사 실기 준비 - Day 4 (0) 2021.11.30 빅데이터분석기사 실기 준비 - Day 3 (0) 2021.11.26 빅데이터분석기사 실기 준비 - Day 2 (0) 2021.11.25