Paper Review
-
Visual Semantic EmbeddingPaper Review 2022. 1. 20. 15:13
논문: Deep Visual Semantic Embedding with Text Data Augmentation and Word Embedding Initialization visual semantic embedding은 의미적으로 연관된 이미지와 텍스트 쌍을 같은 공간으로 만드는 representation을 학습한다. 즉, visual semantic embedding은 기본 domain 구조를 나타내는 common feature space를 학습하고 이미지와 텍스트의 임베딩은 의미론적으로 중요하다. 이를 통해 union 방식으로 주어진 이미지와 텍스트를 비교할 수 있고 mulitmodal 검색을 수행할 수 있다.
-
[CV+NLP] Show and Tell: A Neural Image Caption Generator 논문 리뷰Paper Review 2021. 7. 5. 01:56
논문과 구글링해서 얻은 내용을 정리한 글 입니다. 1. Introduction 이미지의 컨텐츠를 영어 문장을 사용해 자동으로 설명하는 '이미지 캡셔닝(image captioning)' 문제를 다룬다. 이미지 캡셔닝은 기계 번역 문제에서 영감을 얻었다. 기계 번역 문제는 source 언어로 쓰인 문장(S)을 target 언어로 번역된 문장(T)으로 변환하며 이때 p(T|S)를 최대화함으로써 해결한다. 예를 들어, 기계 번역 모델 중 하나인 seq2seq 모델은 encoder RNN이 source 문장(S)을 입력으로 받아 고정 길이 벡터 표현으로 변환한다. 그리고 변환된 벡터 표현은 target 문장(T)을 생성하는 decoder RNN의 입력으로 사용된다. seq2seq의 구조는 아래와 같다. 본 논문에..