빅분기 실기
-
빅데이터분석기사 실기 준비 - Day 6자격증/빅데이터분석기사 2021. 12. 2. 02:34
8. 투표기반 앙상블(voting) 투표기반 앙상블은 여러 분류기를 학습시킨 후 각각의 분류기가 예측하는 레이블 범주가 가장 많이 나오는 범주를 예측하는 방법 다수결 원리 개별 분류기의 최적 하이퍼파라미터를 찾은 후, 투표기반 앙상블로 모델을 만들어 좀 더 좋은 분류와 회귀 예측을 찾는 것 아래 그림은 여기서 가져옴 (분류 알고리즘의 경우) 투표기반 앙상블의 옵션 범주 기반: Hard Learner 확률 기반: Soft Learner ensemble => VotingClassifier, VotingRegressor - 범주(Hard)보다 확률(Soft) 방식이 다소 정확도가 높음 9. 앙상블 배깅(baggin) 학습 데이터에 대해 여러 개의 부트스트랩(bootstrap) 데이터를 생성하고 각 부트스트랩 ..
-
빅데이터분석기사 실기 준비 - Day 5 (2)자격증/빅데이터분석기사 2021. 12. 1. 02:27
[머신러닝 핵심 알고리즘] 1. 로지스틱 회귀모델 로지스틱 회귀분석은 종속변수가 범주형일 때 적용 주요 하이퍼파라미터 C : [0.001, 0.01, 0.1, 1, 10, 100] linear_model => LogisticRegression 2. KNN(K-최근접이웃법) 각 데이터들 간의 거리를 측정하여 가까운 k개의 다른 데이터의 레이블을 참조하여 분류하는 방법 거리는 주로 유클리디안 or 민코브스키(minkowski) 방법을 사용함 주요 하이퍼파라미터로 K가 있음 K : 몇 개의 케이스들을 기준으로 동일 범주 혹은 동일 값을 분류하거나 예측할 것인가 3~10 범위 내에서 찾음 K가 작을수록 정교한 분류와 예측 가능 but train data에는 좋은 결과 보이지만 test data에는 overfit..
-
빅데이터분석기사 실기 준비 - Day 5 (1)자격증/빅데이터분석기사 2021. 11. 30. 22:29
pd.get_dummies(X) - 원핫인코딩 기능 - train과 test로 데이터를 나누기 전에 적용 - 원핫 인코딩 과정 먼저 숫자로 되어있는 범주를 replace를 사용해 문자로 변환 문자로 변환한 결과 pd.get_dummies(X) 적용 랜덤 없는 교차검증: cross_val_score - train data를 모두 한 번에 사용하지 않고 5개 그룹으로 나누어 이 중 한 그룹을 빼고 4개 그룹만 훈련을 하며 이를 5번 반복함 - 데이터의 순서가 1~30번, 31~60번 ... 등 순서대로 나누어 투입됨 랜덤 있는 교차검증: KFold - 그룹을 나눌 때 위와는 다르게 무작위로 섞어서 뽑음(shuffle=True) 임의분할 교차검증: ShuffleSplit - train data와 test da..
-
빅데이터분석기사 실기 준비 - Day 4자격증/빅데이터분석기사 2021. 11. 30. 01:45
train_test_split - 데이터의 라벨(범주)이 불균형일 경우 stratify=y 설정 MinMaxScaler - min 0 max 1 StandardScaler - mean 0 std 1 Model - model.fit(x, y) : 모델 훈련 - model.predict(x) : 모델 예측(범주) - model.predict_proba(x) : 모델 예측(확률) - model.score(x, y) : 모델 정확도 confusion_matrix - confusion_matrix(y_test, y_pred) classification_report - classification_report(y_test, y_pred) model.decisition_function(x) - 샘플의 confidenc..
-
빅데이터분석기사 실기 준비 - Day 3자격증/빅데이터분석기사 2021. 11. 26. 06:41
4. 변수 변환 로그 변환: np.log / 제곱근 변환: np.sqrt 5. 결측치 처리 전체 데이터에 대한 결측치 확인 => df.isnull() or pd.isnull(df) or df.notnull() or pd.notnull() 변수 별 결측치 개수 확인 => df.isnull().sum() or df.notnull().sum() 행 별 결측치 개수 확인 => df.isnull().sum(1) 결측값 제거 => df.dropna(0) : 행 제거, df.dropna(1) : 열 제거 결측값 대체 결측값을 특정 값으로 대체 df.fillna(method='ffill') or df.fillna(method='pad') 결측값을 앞에 있는 값으로 채움 df.fillna(method='bfill') o..
-
빅데이터분석기사 실기 준비 - Day 2자격증/빅데이터분석기사 2021. 11. 25. 07:02
1. 단변량 데이터 탐색 df.info() 를 통해 컬럼 개수와 자료형을 알 수 있음 replace를 통해 범주 이름을 바꿀 수 있음 그래프 그리기 kind를 line or bar로도 바꿀 수 있음 df.describe() 통해 모든 변수의 기술 통계량 확인하기 roe 변수는 mean과 50%(중위수) 간의 차이가 적으니 이상치가 적다고 볼 수 있음 salary, sales는 mean과 중위수 간이 차이가 다소 크므로 이상치가 많다고 볼 수 있음 왜도(skewness) 첨도(kurtosis) 아래 사진 사이트: https://digitaschools.com/descriptive-statistics-skewness-and-kurtosis/ 왜도: 그래프의 좌우 대칭, 음수면 오른쪽에 자료가 더 많고 이상치..
-
빅데이터분석기사 실기 준비 - Day 1자격증/빅데이터분석기사 2021. 11. 24. 06:41
1. 리스트(list), 튜플(tuple), 집합(set), dictionary list - [ ] 사용 - 한 번에 여러 유형의 자료를 담을 수 있음 - append를 통해 요소 추가 - 값 수정, 변경할 때 list[index]=value 를 통해 변경할 수 있음 tuple - ( ) 사용 - 값 수정, 변경 못하는 것 제외하고 list와 동일 set - { } 사용 - list, tuple과 다르게 순서가 존재하지 않음 - 중복된 값이 들어가지 않음 - add를 통해 요소 추가 / 여러 개의 요소를 추가할 때 update 사용 / 하나의 요소 삭제할 때 remove / 모든 요소 삭제할 때 clear - 합집합/교집합/차집합 dictionary - { } 사용하지만 'key: value' 매칭 형태..