본문으로 건너뛰기

"Computer vision" 태그로 연결된 6개 게시물개의 게시물이 있습니다.

컴퓨터 비전 - 이미지와 영상을 분석하여 시각 정보를 이해하는 인공지능 기술

모든 태그 보기

OPENFACE 3.0: A Lightweight Multitask System for Comprehensive Facial Behavior Analysis

· 약 6분
Jiewen Hu
Carnegie Mellon University
Leena Mathur
Carnegie Mellon University
Paul Pu Liang
Massachusetts Institute of Technology
Louis-Philippe Morency
Carnegie Mellon University

논문 정보

  • 제목: OPENFACE 3.0: A Lightweight Multitask System for Comprehensive Facial Behavior Analysis
  • 저자: Jiewen Hu (Carnegie Mellon University), Leena Mathur (Carnegie Mellon University), Paul Pu Liang (Massachusetts Institute of Technology), Louis-Philippe Morency (Carnegie Mellon University)
  • 학회/저널: arXiv (v1)
  • 발행일: 2025-06-03
  • DOI: N/A (arXiv submission)
  • 주요 연구 내용: 본 논문은 네 가지 핵심 안면 분석 작업(랜드마크 감지, 표정 단위(AU) 감지, 시선 추정, 감정 인식)을 동시에 수행하는 경량화된 통합 모델 OpenFace 3.0을 제안함. 다중 작업 학습(Multi-Task Learning, MTL) 아키텍처를 사용하여 파라미터를 공유함으로써 효율성을 극대화함.
  • 주요 결과 및 결론: OpenFace 3.0은 이전 버전(OpenFace 2.0) 및 타 툴킷 대비 예측 성능, 추론 속도, 메모리 효율성에서 상당한 개선을 보임. 특히 다중 작업 학습을 통해 정면이 아닌 각도의 얼굴(angled faces) 인식 성능이 SOTA 모델을 능가하는 강력한 일반화 성능을 입증함.
  • 기여점: 단일 모델로 4가지 안면 분석 작업을 실시간으로 처리할 수 있는 고성능 오픈소스 툴킷을 제공. 또한, 서로 다른 작업(예: 시선 추정 데이터)의 특징 공유가 다른 작업(예: 감정 인식)의 성능, 특히 비정면 얼굴에서의 성능을 향상시킬 수 있음을 보임.

WHAT DOES IT MEAN TO BE A TRANSFORMER? INSIGHTS FROM A THEORETICAL HESSIAN ANALYSIS

· 약 5분
Weronika Ormaniec
Felix Dangel
Sidak Pal Singh

논문 정보

  • 제목: WHAT DOES IT MEAN TO BE A TRANSFORMER? INSIGHTS FROM A THEORETICAL HESSIAN ANALYSIS
  • 저자: Weronika Ormaniec (ETH Zürich), Felix Dangel (Vector Institute), Sidak Pal Singh (ETH Zürich)
  • 학회/저널: ICLR 2025
  • 발행일: 2025-03-17
  • DOI: 해당 없음
  • 주요 연구 내용: 단일 셀프 어텐션 레이어의 손실 함수에 대한 헤시안 행렬을 이론적으로 완전히 유도하고, 이를 행렬 미분 형태로 표현함. 헤시안의 각 블록이 데이터, 가중치, 어텐션 모멘트(attention moments)에 어떻게 의존하는지 분석하여 기존 MLP나 CNN과의 구조적 차이점을 명확히 함.
  • 주요 결과 및 결론: 트랜스포머 헤시안은 파라미터 그룹(Query, Key, Value)에 따라 데이터와 가중치에 대한 의존성이 매우 비선형적이고 이질적(heterogeneous)임을 보임. Softmax 활성화 함수와 Query-Key 파라미터화와 같은 트랜스포머의 핵심 설계 요소가 이러한 이질성의 주요 원인임을 밝힘.
  • 기여점: 트랜스포머 학습에 통용되는 적응형 옵티마이저, 레이어 정규화, 학습률 워밍업 등의 기법이 필요한 이유를 헤시안의 복잡하고 이질적인 구조를 통해 설명함. 이는 트랜스포머의 독특한 최적화 환경과 그로 인한 문제들에 대한 깊은 이론적 토대를 제공함.

Deep learning-based fabric defect detection: A review

· 약 5분
Yavuz Kahraman
Adiyaman University 연구원
Alptekin Durmuşoğlu

논문 정보

  • 제목: Deep learning-based fabric defect detection: A review
  • 저자: Yavuz Kahraman (Adiyaman University), Alptekin Durmuşoğlu (Gaziantep University)
  • 학회/저널: Textile Research Journal
  • 발행일: 2022-10-17
  • DOI: 10.1177/00405175221130773
  • 주요 연구 내용: 2003년부터 현재까지 발표된 딥러닝 기반 직물 결함 검출 관련 논문 38개를 체계적으로 검토하고 분류함. 연구들은 주로 합성곱 신경망(CNN), 생성적 적대 신경망(GAN), 오토인코더(Autoencoder), 순환 신경망(LSTM)과 같은 주요 딥러닝 아키텍처를 기반으로 분석되었음.
  • 주요 결과 및 결론: 딥러닝, 특히 CNN 기반 방법론이 직물 결함 검출에서 95% 이상의 높은 성공률을 보이며 매우 효과적임을 확인함. 가장 많이 활용된 공개 데이터셋은 TILDA였으나, 연구의 일반화와 재현성을 위해 표준화된 대규모 데이터베이스 구축의 필요성을 제기함.
  • 기여점: 본 논문은 딥러닝 기반 직물 결함 검출 분야를 전문적으로 다룬 최초의 최신 리뷰 연구임. 주요 딥러닝 아키텍처의 장단점을 비교 분석하고, 사용된 데이터셋과 성능을 종합적으로 정리하여 해당 분야 연구자들에게 유용한 참고 자료와 향후 연구 방향을 제시함.

Improving Viewing Experiences of First-Person Shooter Gameplays with Automatically-Generated Motion Effects

· 약 6분
Gyeore Yun
POSTECH 연구원
Hyoseung Lee
Sangyoon Han
Seungmoon Choi
POSTECH 교수

논문 정보

  • 제목: Improving Viewing Experiences of First-Person Shooter Gameplays with Automatically-Generated Motion Effects
  • 저자: Gyeore Yun, Sangyoon Han, Hyoseung Lee, Seungmoon Choi (Pohang University of Science and Technology)
  • 학회/저널: CHI Conference on Human Factors in Computing Systems (CHI '21)
  • 발행일: 2021-05-08
  • DOI: 10.1145/3411764.3445358
  • 주요 연구 내용: 1인칭 슈팅(FPS) 게임 시청 경험을 향상시키기 위해, 게임의 시청각(audiovisual) 스트림을 분석하여 자동으로 모션 효과를 생성하는 두 가지 알고리즘을 제안함. 첫 번째는 컴퓨터 비전 기술을 이용해 카메라 움직임을 추정하여 캐릭터의 이동을 표현, 두 번째는 딥러닝 모델로 총소리를 탐지하여 총기 반동 효과를 생성함.
  • 주요 결과 및 결론: 사용자 연구 결과, 제안된 모션 효과가 게임 시청의 즐거움과 몰입감을 유의미하게 향상시킴. 특히 캐릭터 움직임과 총기 발사 효과를 결합했을 때(ME-COM) 시너지 효과를 보이며 가장 높은 몰입감과 선호도를 얻음. 모션 효과는 시청자의 게임 집중력을 방해하지 않았으나, 피로도는 다소 증가시키는 것으로 나타남.
  • 기여점: FPS 게임에 특화된 두 가지 모션 합성 알고리즘을 설계하고 통합했으며, 자동으로 생성된 다감각 효과가 e스포츠 시청 경험에 실질적인 이점을 제공한다는 경험적 증거를 제시함. 이는 개발자의 수동 작업 없이 다양한 게임에 4D 효과를 적용할 수 있는 확장 가능한 방법을 제안한다는 점에서 의의가 있음.

Cross-dataset learning and person-specific normalisation for automatic Action Unit detection

· 약 5분
Tadas Baltrušaitis
Cambridge University
Marwa Mahmoud
Cambridge University
Peter Robinson
Cambridge University

논문 정보

  • 제목: Cross-dataset learning and person-specific normalisation for automatic Action Unit detection
  • 저자: Tadas Baltrušaitis, Marwa Mahmoud, Peter Robinson (Computer Laboratory, University of Cambridge, United Kingdom)
  • 학회/저널: IEEE International Conference on Automatic Face and Gesture Recognition (FG) 2015
  • 발행일: 2015
  • DOI: 10.1109/FG.2015.7284869
  • 주요 연구 내용: 실시간 AU(Facial Action Unit) 감지 및 강도 추정 시스템을 제안함. 외형(HOG) 및 기하학적(landmark) 특징을 사용. 개인별 중립 표정 차이를 보정하기 위해 간단한 중간값(median) 기반 특징 정규화 기법을 사용.
  • 주요 결과 및 결론: 제안한 시스템이 FERA 2015 챌린지의 3가지 태스크(AU 발생 감지, 완전 자동 AU 강도, 사전 분할 AU 강도 추정)에서 모두 기준선(baseline) 성능을 능가함. 여러 데이터셋을 함께 훈련(cross-dataset learning)하는 것이 일반화(generic) 모델 훈련에 이점을 보임.
  • 기여점: 특정 AU 감지 시 개인 맞춤형 중립 표정 정규화의 이점을 시연. 일반화 모델 훈련을 위한 다중 데이터셋 사용의 이점을 시연. 20-30fps로 실시간 실행 가능한 전체 AU 감지 파이프라인을 제시.

Automated fabric defect detection—A review

· 약 5분
Henry Y.T. Ngan
The University of Hong Kong 연구원

논문 정보

  • 제목: Automated fabric defect detection—A review
  • 저자: Henry Y.T. Ngan, Grantham K.H. Pang, Nelson H.C. Yung (The University of Hong Kong)
  • 학회/저널: Image and Vision Computing
  • 발행일: 2011-02-27
  • DOI: 10.1016/j.imavis.2011.02.002
  • 주요 연구 내용: 본 논문은 최근의 자동화된 직물 결함 검출 방법들을 종합적으로 리뷰함. 연구들을 크게 비-모티프 기반(non-motif-based) 접근법과 모티프 기반(motif-based) 접근법으로 나누고, 다시 통계적, 스펙트럼, 모델 기반, 학습, 구조적, 하이브리드, 모티프 기반의 7가지 카테고리로 세분화하여 분석함.
  • 주요 결과 및 결론: 각 방법론의 검출 성공률, 강점, 약점을 비교 분석한 결과를 제시함. 특정 패턴 그룹(p1)에 특화된 방법들은 높은 성공률을 보이지만 일반성이 부족하며, 여러 패턴 그룹에 적용 가능한 모티프 기반 접근법은 일반성이 높지만 상대적으로 성공률이 약간 낮음. 향후 연구 방향으로 공통 참조 데이터베이스 구축, 하이브리드 접근법 개발, 실시간 적용을 위한 계산 효율성 향상 등을 제안함.
  • 기여점: 직물 결함 검출 연구에 대한 최신 동향을 제공하며, 7가지 클래스로 구성된 넓은 범위의 분류 체계를 제안함. 각 방법론에 대한 정성적 분석과 검출 성공률 데이터를 포함하여 비교 연구를 수행하고, 향후 연구 방향에 대한 통찰을 제공함.