'Multi-Modal' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2024/05 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록Multi-Modal (2)

AI 공부 기록 블로그

[논문 리뷰] VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text

본 논문은 2021년 NeurIPS에서 발표된 논문이며, multi-modal data(비디오-오디오-텍스트)를 Transformers 모델을 이용해 각 representation 벡터를 추출하고 self-supervised learning 방법인 contrastive learning을 통해 여러 다운스트림 태스크에서 좋은 성능을 보인 논문입니다. 본 논문에 대한 리뷰는 제가 이해한 내용을 바탕으로 작성하였습니다. 오역이나 잘못된 내용이 있으면 지적해주시면 감사하겠습니다 :) 1. Introduction 주변에서 흔히 볼 수 있는 visual 데이터의 경우 대부분 라벨이 부여되지 않고, 구조화되어있지 않습니다. 모델 학습을 위해 라벨링이 된 이미지나 비디오 데이터를 수집하는 것은 비용적 측면과 시간적 측..

논문 리뷰 2022. 5. 6. 17:22

[논문 리뷰] MMGCN: Multi-modal Graph Convolution Network for Personalized Recommendation of Micro-video

본 논문은 2019년에 ACM International Conference on Multimedia에서 발표되었으며, Micro-video 데이터에 포함된 multi-modal data(시각, 음성, 텍스트 데이터)를 GCN에 적용하여 기존 추천 시스템 모델에서 좋은 성능을 보였습니다. 논문의 리뷰는 저의 주관적인 해석과 오역이 있을 수 있습니다. 이에 대해서 댓글 남겨주시면 감사하겠습니다. :) 0. Background knowledge 먼저, Multi-modal learning이란 변수의 차원이 각기 다른 데이터(modality)가 여럿이 모여 동시에 학습하는 방법을 말합니다. 주로 인간의 감정인식, 행동 인식 분야에서 활발히 연구되지만, 추천시스템에서도 다양한 modality (이미지, 텍스트, ..

논문 리뷰 2022. 4. 5. 16:42

이전 Prev 1 Next 다음

목록Multi-Modal (2)

AI 공부 기록 블로그

티스토리툴바