전체 글
-
기계 번역에서 alignment 의미Natural Language Processing 2022. 1. 25. 18:07
* alignment 의미 기계 번역 관련 논문[1]을 읽는데 다음과 같은 내용이 나왔다. In MT, one can intuitively interpret this attention mechanism as inducing an alignment between source and target sentences, as first proposed by Bahdanau et al. (2015). "어텐션 메커니즘은 source 문장과 target 문장 간의 alignment를 유도하는 것으로 직관적으로 해석할 수 있다" 이런 의미이다. 여기에서 alignment 단어는 컴퓨터 비전 분야에서도 정말 많이 봤던 단어이다. 자연어 특히 기계 번역에서의 alignment의 의미가 궁금하여 찾아보니 다음과 같았다. S..
-
Time Series(시계열)카테고리 없음 2022. 1. 21. 20:34
아래 사이트 보고 정리하는 글 https://towardsdatascience.com/the-complete-guide-to-time-series-analysis-and-forecasting-70d476bfe775 The Complete Guide to Time Series Analysis and Forecasting Understand moving average, exponential smoothing, stationarity, autocorrelation, SARIMA, and apply these techniques in two projects. towardsdatascience.com Introduction 시계열은 특정 시간 순서로 되어있는 일련의 numerical 데이터 포인트이다. 시계열에서..
-
Visual Semantic EmbeddingPaper Review 2022. 1. 20. 15:13
논문: Deep Visual Semantic Embedding with Text Data Augmentation and Word Embedding Initialization visual semantic embedding은 의미적으로 연관된 이미지와 텍스트 쌍을 같은 공간으로 만드는 representation을 학습한다. 즉, visual semantic embedding은 기본 domain 구조를 나타내는 common feature space를 학습하고 이미지와 텍스트의 임베딩은 의미론적으로 중요하다. 이를 통해 union 방식으로 주어진 이미지와 텍스트를 비교할 수 있고 mulitmodal 검색을 수행할 수 있다.
-
GPT2 vs XLNetNatural Language Processing 2022. 1. 13. 19:36
아래 사이트 공부하고 적은 글 https://amanrusia.medium.com/xlnet-speaks-comparison-to-gpt-2-ea1a4e9ba39e XLNet speaks. Comparison to GPT-2 This was not me, but the XLNet model talking (prompt text is in the bold). For more samples and quick usage go to… amanrusia.medium.com Language Modeling의 3가지 전략 1. Unidirectional/Casual Language Modeling (단방향) - 단어들이 왼쪽에서 오른쪽 혹은 오른쪽에서 왼쪽으로 auto-regressive한 방식으로 공급됨 - LST..
-
빅데이터분석기사 실기 준비 - Day 6자격증/빅데이터분석기사 2021. 12. 2. 02:34
8. 투표기반 앙상블(voting) 투표기반 앙상블은 여러 분류기를 학습시킨 후 각각의 분류기가 예측하는 레이블 범주가 가장 많이 나오는 범주를 예측하는 방법 다수결 원리 개별 분류기의 최적 하이퍼파라미터를 찾은 후, 투표기반 앙상블로 모델을 만들어 좀 더 좋은 분류와 회귀 예측을 찾는 것 아래 그림은 여기서 가져옴 (분류 알고리즘의 경우) 투표기반 앙상블의 옵션 범주 기반: Hard Learner 확률 기반: Soft Learner ensemble => VotingClassifier, VotingRegressor - 범주(Hard)보다 확률(Soft) 방식이 다소 정확도가 높음 9. 앙상블 배깅(baggin) 학습 데이터에 대해 여러 개의 부트스트랩(bootstrap) 데이터를 생성하고 각 부트스트랩 ..
-
빅데이터분석기사 실기 준비 - Day 5 (2)자격증/빅데이터분석기사 2021. 12. 1. 02:27
[머신러닝 핵심 알고리즘] 1. 로지스틱 회귀모델 로지스틱 회귀분석은 종속변수가 범주형일 때 적용 주요 하이퍼파라미터 C : [0.001, 0.01, 0.1, 1, 10, 100] linear_model => LogisticRegression 2. KNN(K-최근접이웃법) 각 데이터들 간의 거리를 측정하여 가까운 k개의 다른 데이터의 레이블을 참조하여 분류하는 방법 거리는 주로 유클리디안 or 민코브스키(minkowski) 방법을 사용함 주요 하이퍼파라미터로 K가 있음 K : 몇 개의 케이스들을 기준으로 동일 범주 혹은 동일 값을 분류하거나 예측할 것인가 3~10 범위 내에서 찾음 K가 작을수록 정교한 분류와 예측 가능 but train data에는 좋은 결과 보이지만 test data에는 overfit..
-
빅데이터분석기사 실기 준비 - Day 5 (1)자격증/빅데이터분석기사 2021. 11. 30. 22:29
pd.get_dummies(X) - 원핫인코딩 기능 - train과 test로 데이터를 나누기 전에 적용 - 원핫 인코딩 과정 먼저 숫자로 되어있는 범주를 replace를 사용해 문자로 변환 문자로 변환한 결과 pd.get_dummies(X) 적용 랜덤 없는 교차검증: cross_val_score - train data를 모두 한 번에 사용하지 않고 5개 그룹으로 나누어 이 중 한 그룹을 빼고 4개 그룹만 훈련을 하며 이를 5번 반복함 - 데이터의 순서가 1~30번, 31~60번 ... 등 순서대로 나누어 투입됨 랜덤 있는 교차검증: KFold - 그룹을 나눌 때 위와는 다르게 무작위로 섞어서 뽑음(shuffle=True) 임의분할 교차검증: ShuffleSplit - train data와 test da..
-
빅데이터분석기사 실기 준비 - Day 4자격증/빅데이터분석기사 2021. 11. 30. 01:45
train_test_split - 데이터의 라벨(범주)이 불균형일 경우 stratify=y 설정 MinMaxScaler - min 0 max 1 StandardScaler - mean 0 std 1 Model - model.fit(x, y) : 모델 훈련 - model.predict(x) : 모델 예측(범주) - model.predict_proba(x) : 모델 예측(확률) - model.score(x, y) : 모델 정확도 confusion_matrix - confusion_matrix(y_test, y_pred) classification_report - classification_report(y_test, y_pred) model.decisition_function(x) - 샘플의 confidenc..