본문으로 건너뛰기

"Deep learning" 태그로 연결된 14개 게시물개의 게시물이 있습니다.

딥러닝 - 다층 신경망을 이용한 표현 학습 및 패턴 인식 기술

모든 태그 보기

Attention Is All You Need

· 약 6분
Ashish Vaswani
Google Research 연구원
Noam Shazeer
Niki Parmar
Jakob Uszkoreit
Llion Jones
Aidan Gomez
Lukasz Kaiser
Illia Polosukhin

논문 정보

  • 제목: Attention Is All You Need
  • 저자: Ashish Vaswani (Google Brain), Noam Shazeer (Google Brain), Niki Parmar (Google Research), Jakob Uszkoreit (Google Research), Llion Jones (Google Research), Aidan N. Gomez (University of Toronto), Łukasz Kaiser (Google Brain), Illia Polosukhin
  • 학회/저널: 31st Conference on Neural Information Processing Systems (NIPS 2017)
  • 발행일: 2017-12-06
  • DOI: 10.48550/arXiv.1706.03762
  • 주요 연구 내용: 이 연구는 순환(recurrence) 및 합성곱(convolution)을 완전히 배제하고 오직 어텐션(attention) 메커니즘에만 의존하는 새로운 시퀀스 변환 모델인 '트랜스포머'를 제안함. 트랜스포머는 인코더-디코더 구조를 따르며, 각 부분은 여러 개의 동일한 레이어를 쌓아 구성되고, 각 레이어는 멀티-헤드 셀프-어텐션과 위치별 피드포워드 네트워크라는 두 개의 핵심적인 하위 레이어로 이루어짐.
  • 주요 결과 및 결론: 트랜스포머는 기계 번역 작업에서 기존의 최고 성능 모델들을 능가하는 결과를 보임. WMT 2014 영어-독일어 번역 태스크에서 28.4 BLEU 점수를 기록하여 기존 최고 기록을 2 BLEU 이상 경신하며, 영어-프랑스어 번역 태스크에서는 41.8 BLEU 점수로 새로운 단일 모델 최고 기록을 세움. 이러한 성과를 기존 모델들보다 훨씬 적은 훈련 시간으로 달성하여 병렬화의 이점을 입증함.
  • 기여점: 본 논문은 어텐션 메커니즘만으로도 시퀀스 변환 작업에서 최첨단 성능을 달성할 수 있음을 보여줌. 순차적 계산에 의존하는 RNN을 병렬 계산이 가능한 셀프-어텐션으로 대체함으로써 훈련 속도를 크게 향상시키고, 더 우수한 번역 품질을 달성하는 새로운 패러다임을 제시함.

An End-to-End Trainable Neural Network for Image-Based Sequence Recognition and Its Application to Scene Text Recognition

· 약 5분
Baoguang Shi
Huazhong University of Science and Technology 연구원
Xiang Bai
Cong Yao

논문 정보

  • 제목: An End-to-End Trainable Neural Network for Image-Based Sequence Recognition and Its Application to Scene Text Recognition
  • 저자: Baoguang Shi, Xiang Bai, Cong Yao (Huazhong University of Science and Technology)
  • 학회/저널: IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE
  • 발행일: 2016-12-28
  • DOI: 10.1109/TPAMI.2016.2646371
  • 주요 연구 내용: 이미지 기반 시퀀스 인식을 위해 Convolutional Neural Network(CNN)와 Recurrent Neural Network(RNN)을 통합한 새로운 아키텍처인 CRNN(Convolutional Recurrent Neural Network)을 제안함. 이 모델은 특징 추출(CNN), 시퀀스 모델링(RNN), 전사(Transcription)의 세 부분을 하나의 프레임워크로 결합하여 문자 단위의 레이블 없이 종단간(End-to-End) 학습이 가능함.
  • 주요 결과 및 결론: IIIT-5K, SVT, ICDAR 등 표준 장면 텍스트 인식 벤치마크에서 기존 최고 수준의 알고리즘들과 대등하거나 더 우수한 성능을 보임. 또한, 제안된 모델은 훨씬 적은 파라미터(8.3M)를 사용하여 효율적이며, 악보 인식과 같은 다른 시퀀스 인식 문제에도 일반화될 수 있음을 확인함.
  • 기여점: 기존 방법들과 달리 구성 요소를 개별적으로 훈련할 필요 없는 완전한 종단간 학습이 가능함. 문자 분할이나 정규화 과정 없이 임의 길이의 시퀀스를 자연스럽게 처리하며, 사전(lexicon) 유무에 관계없이 높은 성능을 달성함.

MUST-CNN: A Multilayer Shift-and-Stitch Deep Convolutional Architecture for Sequence-Based Protein Structure Prediction

· 약 5분
Zeming Lin
Jack Lanchantin
Yanjun Qi

논문 정보

  • 제목: MUST-CNN: A Multilayer Shift-and-Stitch Deep Convolutional Architecture for Sequence-Based Protein Structure Prediction
  • 저자: Zeming Lin, Jack Lanchantin, Yanjun Qi (University of Virginia)
  • 학회/저널: Thirtieth AAAI Conference on Artificial Intelligence (AAAI-16)
  • 발행일: 2016-02-12
  • DOI: 해당 없음
  • 주요 연구 내용: 단백질의 아미노산 서열로부터 2차 구조나 용매 접근성 같은 속성을 예측하기 위해 딥 컨볼루션 신경망(CNN)을 활용. Max-pooling으로 인한 해상도 저하 문제를 해결하기 위해, 다중 계층에 'shift-and-stitch' 기법을 적용하여 전체 서열에 대한 완전 밀집(fully dense) 예측을 효율적으로 생성하는 종단간(end-to-end) 모델 MUST-CNN을 제안함.
  • 주요 결과 및 결론: 제안된 MUST-CNN 모델은 기존의 최첨단 모델들보다 구조적으로 더 단순함에도 불구하고, 4prot 및 CullPDB라는 두 개의 대규모 단백질 속성 예측 데이터셋에서 더 우수한 성능을 달성함. 특히 4prot 데이터셋에서 3클래스 2차 구조 예측(ssp) 정확도(Q3Q_3) 89.6%를 기록했으며, CullPDB 데이터셋에서는 8클래스 예측(Q8Q_8) 정확도 68.4%를 달성하여 기존 최고 성능을 경신함.
  • 기여점: 딥 CNN에 적용 가능한 새로운 'multilayer shift-and-stitch' (MUST) 기법을 제안하여 학습 및 추론 시간을 크게 단축시키고 모델의 규모를 확장함. 또한, 임의 길이의 서열에 대해 각 위치별(per-position) 레이블링을 수행하는 일반적인 종단간 시스템을 제안했으며, 이를 통해 두 개의 대규모 단백질 데이터셋에서 최첨단 성능을 달성함.

Deep Residual Learning for Image Recognition

· 약 5분
Kaiming He
Facebook AI Research 연구원
Xiangyu Zhang
Shaoqing Ren
Jian Sun

논문 정보

  • 제목: Deep Residual Learning for Image Recognition
  • 저자: Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun (Microsoft Research)
  • 학회/저널: arXiv (ILSVRC 2015 우승)
  • 발행일: 2015-12-10
  • DOI: arxiv.org/abs/1512.03385
  • 주요 연구 내용: 네트워크가 깊어질수록 정확도가 떨어지는 'degradation' 문제를 해결하기 위해 잔차 학습(residual learning) 프레임워크를 제안함. 네트워크가 목표 함수를 직접 학습하는 대신, 입력에 대한 잔차 함수(residual function)를 학습하도록 shortcut connection을 도입하여 매우 깊은 네트워크의 최적화를 용이하게 함.
  • 주요 결과 및 결론: ImageNet 데이터셋에서 최대 152개 레이어의 매우 깊은 잔차 네트워크(ResNet)를 성공적으로 훈련시켰으며, 이는 VGGNet보다 8배 깊지만 복잡도는 더 낮음. ResNet 앙상블 모델은 ImageNet test set에서 3.57%의 top-5 error를 달성하여 ILSVRC 2015 분류 과제에서 1위를 차지함.
  • 기여점: 심층 신경망의 'degradation' 문제를 해결하는 잔차 학습 프레임워크(ResNet)를 제안함. 이전보다 훨씬 깊은 네트워크(152-layer)의 훈련을 가능하게 하여 이미지 인식 분야에서 SOTA(State-of-the-art) 성능을 달성함. 잔차 학습의 효과를 ImageNet 및 CIFAR-10 데이터셋에서 실험적으로 증명하고, COCO 데이터셋을 사용한 객체 탐지에서도 우수성을 입증함.