전체 글
-
빅데이터분석기사 실기 준비 - Day 3자격증/빅데이터분석기사 2021. 11. 26. 06:41
4. 변수 변환 로그 변환: np.log / 제곱근 변환: np.sqrt 5. 결측치 처리 전체 데이터에 대한 결측치 확인 => df.isnull() or pd.isnull(df) or df.notnull() or pd.notnull() 변수 별 결측치 개수 확인 => df.isnull().sum() or df.notnull().sum() 행 별 결측치 개수 확인 => df.isnull().sum(1) 결측값 제거 => df.dropna(0) : 행 제거, df.dropna(1) : 열 제거 결측값 대체 결측값을 특정 값으로 대체 df.fillna(method='ffill') or df.fillna(method='pad') 결측값을 앞에 있는 값으로 채움 df.fillna(method='bfill') o..
-
[Error] An exception has occurred, use %tb to see the full traceback.Setting & Error 2021. 11. 25. 21:38
주피터 노트북에서 argparse를 사용하면 다음과 같은 에러가 발생함 args = parser.parse_args() 대신 args, _ = parser.parse_known_args() 쓰면 에러가 발생하지 않음 (여담으로 발생하는 경우 add_argument 과정에서 문제가 생기는 경우가 아주 가끔 있었음.. 이 경우 add_argument 에서 문제가 되는 하이퍼 파라미터(--params)를 찾아 주석 처리한 후 parse_known_args() 실행 후에 추가하면 해결되었던 것으로 기억함)
-
빅데이터분석기사 실기 준비 - Day 2자격증/빅데이터분석기사 2021. 11. 25. 07:02
1. 단변량 데이터 탐색 df.info() 를 통해 컬럼 개수와 자료형을 알 수 있음 replace를 통해 범주 이름을 바꿀 수 있음 그래프 그리기 kind를 line or bar로도 바꿀 수 있음 df.describe() 통해 모든 변수의 기술 통계량 확인하기 roe 변수는 mean과 50%(중위수) 간의 차이가 적으니 이상치가 적다고 볼 수 있음 salary, sales는 mean과 중위수 간이 차이가 다소 크므로 이상치가 많다고 볼 수 있음 왜도(skewness) 첨도(kurtosis) 아래 사진 사이트: https://digitaschools.com/descriptive-statistics-skewness-and-kurtosis/ 왜도: 그래프의 좌우 대칭, 음수면 오른쪽에 자료가 더 많고 이상치..
-
빅데이터분석기사 실기 준비 - Day 1자격증/빅데이터분석기사 2021. 11. 24. 06:41
1. 리스트(list), 튜플(tuple), 집합(set), dictionary list - [ ] 사용 - 한 번에 여러 유형의 자료를 담을 수 있음 - append를 통해 요소 추가 - 값 수정, 변경할 때 list[index]=value 를 통해 변경할 수 있음 tuple - ( ) 사용 - 값 수정, 변경 못하는 것 제외하고 list와 동일 set - { } 사용 - list, tuple과 다르게 순서가 존재하지 않음 - 중복된 값이 들어가지 않음 - add를 통해 요소 추가 / 여러 개의 요소를 추가할 때 update 사용 / 하나의 요소 삭제할 때 remove / 모든 요소 삭제할 때 clear - 합집합/교집합/차집합 dictionary - { } 사용하지만 'key: value' 매칭 형태..
-
[Python] 간단한 Pytorch 코드 예제(MNIST)알.쓸.코드/알.쓸.파.코(알아두면 쓸데있는 파이썬 코드) 2021. 10. 20. 01:33
Pytorch를 처음 접했을 때 tensorflow, keras와는 코드 생김새(?)가 달라서 접근하기 어려웠다. 하지만 계속 쓰다 보니 유사한 코드 작성 패턴이 있어서 기록해 두려고 한다. 아래는 유명한 MNIST 데이터 셋을 이용한 기본적인 Pytorch 예제이고 최소한의 코드만 작성했다. 1. 필요한 모듈 로드 import pandas as pd import numpy as np import random import os from sklearn.model_selection import train_test_split import torch import torch.nn as nn import torch.optim as optim from torch.utils.data import DataLoader f..
-
azcopy 이용해 대용량 파일 다운 받기Setting & Error 2021. 9. 29. 14:59
1. wget을 사용해 대용량 파일(22G)을 다운 받는데 계속 끊기는 현상이 발생한다. 그래서 깃헙 설명 하단을 보니 azcopy를 이용해서 다운 받으라고 한다. 2. 아래 홈페이지 들어가서 자신의 운영체제에 맞는 것을 다운 받는다. https://docs.microsoft.com/en-us/azure/storage/common/storage-use-azcopy-v10#download-azcopy 3. 다운 받은 파일을 c에 넣었고 환경변수 설정해준다. 시스템 속성 -> 고급 -> 환경변수(N) 클릭 -> 시스템 변수(S)의 Path 변수에 추가 4. azcopy copy 명령어를 사용해서 로컬 컴퓨터로 다운 받아주면 끝난다. wget을 사용하는 것보다 속도가 빠르고 끊김이 없어서 좋았다.
-
[Error] UnknownError: Failed to get convolution algorithm. This is probably because cuDNN failed to initialize, so try looking to see if a warning log message was printed above. [[node model/stem_conv/Conv2D (defined at \AppData\Local\Temp/ipykernel..Setting & Error 2021. 9. 3. 15:44
jupyter notebook에서 코드를 돌리다가 다음과 같은 에러가 발생 UnknownError: Failed to get convolution algorithm. This is probably because cuDNN failed to initialize, so try looking to see if a warning log message was printed above. [[node model/stem_conv/Conv2D (defined at \AppData\Local\Temp/ipykernel_3968/2063824942.py:160) ]] [Op:__inference_train_function_20024] Function call stack: train_function 자료 화면은 다음과 같음..
-
[30 Days of ML] Day 10Program/[Kaggle] 30 Days of ML 2021. 8. 15. 19:34
Tutorials Experimenting With Different Models decision tree model에는 많은 옵션이 있다. 가장 중요한 옵션은 tree's depth이다. tree's depth는 예측에 도달하기 전에 얼마나 많은 분할을 수행하는지에 대한 척도이다. 아래의 경우 비교적 얕은 깊이이다. overfitting 많은 잎으로 집을 나누는 경우 각 잎에 더 적은 집을 가지게 된다. 주택이 적은 잎은 주택의 실제 값에 상당히 가까운 예측을 하지만 새로운 데이터에 대해 신뢰할 수 없는 예측을 하게 된다. (각 예측이 적은 주택에 기반하기 때문임) 과적합은 훈련 데이터에 거의 완벽히 일치하지만 검증 및 새로운 데이터에 대해서는 제대로 예측이 되지 않는다. underfit..