본문으로 건너뛰기

"Deep learning" 태그로 연결된 12개 게시물개의 게시물이 있습니다.

딥러닝 및 신경망 연구

모든 태그 보기

Deep learning-driven IoT solution for smart tomato farming

· 약 5분
Akshit Saxena
연구원
Aayushi Agarwal
연구원
Bhavya Nagrath
연구원
Carmel Sanjana Jayavanth
연구원
Shamita Thulasidoss
연구원
S. Maheswari
연구원
P. Sasikumar
연구원

논문 정보

  • 제목: Deep learning-driven IoT solution for smart tomato farming
  • 저자: Akshit Saxena, Aayushi Agarwal, Bhavya Nagrath, Carmel Sanjana Jayavanth, Shamita Thulasidoss, S. Maheswari, P. Sasikumar (Vellore Institute of Technology)
  • 학회/저널: Scientific Reports
  • 발행일: 2025-08-24
  • DOI: 10.1038/s41598-025-15615-3
  • 주요 연구 내용: ESP32 기반 무선 센서 네트워크(토양 수분, 온도, 습도)를 사용하여 온실 환경 데이터를 실시간으로 수집하고, 라즈베리 파이와 YOLOv8 딥러닝 모델을 이용해 토마토의 숙성 단계를 이미지 기반으로 자동 분류하는 IoT 스마트 농업 플랫폼을 제안함.
  • 주요 결과 및 결론: 제안된 시스템은 실시간 모니터링 기능을 성공적으로 시연했으며, 양자화 및 가지치기 등 최적화된 YOLOv8 모델은 52.8%의 분류 정확도를 유지하면서 추론 속도를 35% 향상시켰음. 에너지 소비량 분석 결과, ESP32 센서는 일일 8.91Wh, 라즈베리 파이는 78Wh를 소모하는 것으로 나타남.
  • 기여점: 실제 온실 환경에서 수집한 이미지를 활용하여 IoT와 딥러닝을 통합한 실용적인 토마토 농업 모니터링 프로토타입을 구현함. 또한, 시스템 구성 요소의 상세한 에너지 소비 프로파일링을 제공하여 향후 엣지 AI 기반의 확장 가능한 시스템 설계에 기여함.

요약

초록

증가하는 식량 수요와 기후 변화 문제로 인해 정밀 농업(Precision Agriculture)의 중요성이 커지고 있다. 본 연구는 토마토 농업에 특화된 IoT 기반 스마트 온실 플랫폼을 제시하며, 환경 감지 센서와 딥러닝 기술을 통합한다. ESP32 기반 무선 센서가 토양 수분, 온도, 습도 데이터를 실시간으로 수집하여 클라우드 대시보드(ThingsBoard)로 전송해 원격 모니터링을 지원한다. 라즈베리 파이와 Pi 카메라, YOLOv8 모델을 사용하여 실제 온실 이미지로부터 토마토 숙성 단계를 '녹색', '반쯤 익음', '완전히 익음'의 세 단계로 분류한다. 모델 최적화를 통해 추론 속도를 35% 향상시키면서 52.8%의 분류 정확도를 달성했으며, 일일 에너지 소비량은 ESP32 센서가 8.91Wh, 라즈베리 파이가 78Wh로 측정되었다.

서론

2050년까지 세계 인구가 97억 명에 도달할 것으로 예상됨에 따라 식량 생산량을 약 70% 늘려야 하는 과제에 직면해 있다. 기존 농업 방식은 기후 변화, 노동력 부족 등의 한계가 있어 IoT, WSN, AI와 같은 스마트 기술을 활용하는 정밀 농업이 대두되고 있다. 본 연구는 온실 토마토 농업을 위한 스마트 시스템을 제안하며, 센서 데이터와 이미지 기반 숙성도 감지를 결합하여 농작물 관리 효율성과 생산성 향상을 목표로 한다.

배경

Figure 1 정밀 농업(PA)은 데이터 수집, 처리, 분석, 의사 결정, 실행의 순환적 주기를 통해 자원 사용을 최적화하고 환경 영향을 최소화하는 농업 방식이다 (논문의 Figure 1 참조). IoT는 토양 수분, 온도, 습도 등을 측정하는 센서 네트워크를 구성하고, WSN을 통해 데이터를 중앙 컨트롤러로 전송한다. 본 연구는 단순 데이터 수집을 넘어, 센서 값과 카메라 이미지를 함께 사용하여 관개나 조명 조절과 같은 즉각적인 조치를 자동화하는 것을 목표로 한다.

모델 아키텍처 / 방법론

Figure 2 Figure 4

  • 핵심 구조: 시스템은 크게 두 부분으로 구성된다. 첫째, ESP32 마이크로컨트롤러와 연결된 토양 수분, 온도/습도(DHT11), 조도(LDR) 센서가 환경 데이터를 수집하여 Wi-Fi를 통해 ThingsBoard 클라우드 대시보드로 전송한다. 둘째, 라즈베리 파이와 Pi 카메라가 주기적으로 토마토 이미지를 촬영하고, YOLOv8 모델을 실행하여 숙성 단계를 판별한 후 결과를 클라우드로 업로드한다. 전체 시스템 구조는 논문의 Figure 2와 Figure 4에 제시되어 있다.
  • 주요 구성 요소:
    • 센서 네트워크: 토양 수분 센서, DHT11, LDR 센서.
    • 데이터 수집 및 전송: ESP32 마이크로컨트롤러.
    • 이미지 처리 장치: 라즈베리 파이 및 Pi 카메라.
    • 딥러닝 모델: YOLOv8n 아키텍처 기반의 모델을 "Laboro Tomato" 데이터셋으로 학습.
    • 클라우드 플랫폼: ThingsBoard.
  • 수식: 주요 하드웨어의 전력 소모량 계산식은 다음과 같다.
    • ESP32 일일 총 에너지 소비량: E(total)=6.3364Wh+2.574Wh=8.9104Wh/dayE(total) = 6.3364 Wh + 2.574 Wh = 8.9104 Wh/day
    • 라즈베리 파이 일일 총 에너지 소비량: E(total)=60Wh+18Wh=78Wh/dayE(total) = 60 Wh + 18 Wh = 78 Wh/day
  • 알고리즘: YOLOv8n 모델은 제한된 성능의 엣지 디바이스에 배포하기 위해 양자화(Quantization), 가지치기(Pruning), TensorRT 가속과 같은 최적화 기법이 적용되었다.

실험 결과

Figure 13 Figure 21

  • 주요 데이터셋: 'Laboro Tomato' 이미지 데이터셋을 사용했으며, 총 804개의 이미지(학습 643, 테스트 161, 8:2)로 구성했다. 데이터셋은 일반 크기와 방울토마토에 대해 각각 3단계의 숙성도(fully_ripened, half_ripened, green)로 레이블링된 6개의 클래스를 포함함.
  • 핵심 성능 지표: 제안된 YOLOv8n 모델은 테스트 데이터셋에 대해 52.8%의 분류 정확도를 보였다. 이는 mAP(mean Average Precision) 52.8%와 평균 재현율(recall) 0.478에 해당한다. 모델 성능에 대한 상세한 혼동 행렬(Confusion Matrix)은 논문의 Figure 13에 제시되었다.
  • 비교 분석: 기존 연구들이 주로 통제된 실험실 환경이나 공개 데이터셋을 사용하는 것과 달리, 본 연구는 실제 온실에서 촬영한 이미지를 사용하여 프로토타입을 구축하고 테스트함으로써 현실적인 적용 가능성을 높혔다. 또한 논문의 Figure 21에서는 ESP32와 라즈베리 파이의 일일 에너지 소비량(각각 8.91Wh, 78Wh)을 비교 분석하여 시스템의 지속 가능성을 평가하였다.

결론

본 연구는 IoT 센서 네트워크와 YOLOv8 딥러닝 모델을 통합하여 온실 토마토 작물을 모니터링하는 스마트 플랫폼을 성공적으로 구현하였다. 이 플랫폼은 농부에게 실시간 환경 데이터와 자동화된 숙성도 분석 정보를 제공하여 수확량 증대 및 손실 최소화에 기여할 수 있다. 다만, 52.8%의 모델 정확도는 소규모 학습 데이터에 기인한 한계점이며, 인터넷 연결에 대한 의존성 또한 단점으로 지적된다. 향후 연구 방향으로는 데이터셋을 대폭 확장하고, Edge TPU와 같은 엣지 컴퓨팅 기술을 도입하여 오프라인 처리 능력을 강화하며, 관개 및 환기 시스템을 자동으로 제어하는 기능을 추가하는 것이 포함된다.

본 논문은 ITEC0401-002 TA 업무를 위해 읽은 논문이다.

WHAT DOES IT MEAN TO BE A TRANSFORMER? INSIGHTS FROM A THEORETICAL HESSIAN ANALYSIS

· 약 5분
Weronika Ormaniec
연구원
Felix Dangel
연구원
Sidak Pal Singh
연구원

논문 정보

  • 제목: WHAT DOES IT MEAN TO BE A TRANSFORMER? INSIGHTS FROM A THEORETICAL HESSIAN ANALYSIS
  • 저자: Weronika Ormaniec (ETH Zürich), Felix Dangel (Vector Institute), Sidak Pal Singh (ETH Zürich)
  • 학회/저널: ICLR 2025
  • 발행일: 2025-03-17
  • DOI: 해당 없음
  • 주요 연구 내용: 단일 셀프 어텐션 레이어의 손실 함수에 대한 헤시안 행렬을 이론적으로 완전히 유도하고, 이를 행렬 미분 형태로 표현함. 헤시안의 각 블록이 데이터, 가중치, 어텐션 모멘트(attention moments)에 어떻게 의존하는지 분석하여 기존 MLP나 CNN과의 구조적 차이점을 명확히 함.
  • 주요 결과 및 결론: 트랜스포머 헤시안은 파라미터 그룹(Query, Key, Value)에 따라 데이터와 가중치에 대한 의존성이 매우 비선형적이고 이질적(heterogeneous)임을 보임. Softmax 활성화 함수와 Query-Key 파라미터화와 같은 트랜스포머의 핵심 설계 요소가 이러한 이질성의 주요 원인임을 밝힘.
  • 기여점: 트랜스포머 학습에 통용되는 적응형 옵티마이저, 레이어 정규화, 학습률 워밍업 등의 기법이 필요한 이유를 헤시안의 복잡하고 이질적인 구조를 통해 설명함. 이는 트랜스포머의 독특한 최적화 환경과 그로 인한 문제들에 대한 깊은 이론적 토대를 제공함.

Explainable AI for Material Property Prediction Based on Energy Cloud: A Shapley-Driven Approach

· 약 5분
Faiza Qayyum
연구원
Murad Ali Khan
연구원
Do-Hyeun Kim
연구원
Hyunseok Ko
연구원
Ga-Ae Ryu
연구원

논문 정보

  • 제목: Explainable AI for Material Property Prediction Based on Energy Cloud: A Shapley-Driven Approach
  • 저자: Faiza Qayyum (Jeju National University), Murad Ali Khan (Jeju National University), Do-Hyeun Kim (Jeju National University), Hyunseok Ko (Korea Institute of Ceramic Engineering and Technology), Ga-Ae Ryu (Korea Institute of Ceramic Engineering and Technology)
  • 학회/저널: Materials
  • 발행일: 2023-11-24
  • DOI: 10.3390/ma16237322
  • 주요 연구 내용: TabNet 딥러닝 프레임워크를 활용하여 PZT(납 지르콘산 티탄산염) 세라믹의 조성 및 공정 데이터를 기반으로 유전율 특성을 예측하는 모델을 개발함. 모델의 예측 결과를 해석하고 입력 변수와 예측 사이의 관계를 이해하기 위해 설명가능 AI(XAI) 기법인 SHAP(Shapley additive explanations) 분석을 수행함.
  • 주요 결과 및 결론: 제안된 TabNet 모델은 기존 머신러닝 모델(XGBoost, Bi-Layered ANN)보다 우수한 성능을 보였으며, 평균 제곱 오차(MSE) 0.047, 평균 절대 오차(MAE) 0.042를 달성함. SHAP 분석을 통해 압전상수(d33), 유전 손실(tangent loss), 화학식이 유전율 예측에 중요한 기여를 하는 반면, 공정 시간은 상대적으로 영향이 적음을 확인함.
  • 기여점: PZT 세라믹 특성 예측을 위해 특화된 새로운 TabNet 기반 딥러닝 프레임워크를 개발함. SHAP 분석을 통해 모델의 예측에 대한 해석 가능성을 높이고, 다양한 입력 파라미터가 예측에 미치는 영향을 심층적으로 분석하여 압전 재료 특성 예측 분야의 신뢰성을 향상시킴.

Deep learning-based fabric defect detection: A review

· 약 5분
Yavuz Kahraman
Adiyaman University 연구원
Alptekin Durmuşoğlu
연구원

논문 정보

  • 제목: Deep learning-based fabric defect detection: A review
  • 저자: Yavuz Kahraman (Adiyaman University), Alptekin Durmuşoğlu (Gaziantep University)
  • 학회/저널: Textile Research Journal
  • 발행일: 2022-10-17
  • DOI: 10.1177/00405175221130773
  • 주요 연구 내용: 2003년부터 현재까지 발표된 딥러닝 기반 직물 결함 검출 관련 논문 38개를 체계적으로 검토하고 분류함. 연구들은 주로 합성곱 신경망(CNN), 생성적 적대 신경망(GAN), 오토인코더(Autoencoder), 순환 신경망(LSTM)과 같은 주요 딥러닝 아키텍처를 기반으로 분석되었음.
  • 주요 결과 및 결론: 딥러닝, 특히 CNN 기반 방법론이 직물 결함 검출에서 95% 이상의 높은 성공률을 보이며 매우 효과적임을 확인함. 가장 많이 활용된 공개 데이터셋은 TILDA였으나, 연구의 일반화와 재현성을 위해 표준화된 대규모 데이터베이스 구축의 필요성을 제기함.
  • 기여점: 본 논문은 딥러닝 기반 직물 결함 검출 분야를 전문적으로 다룬 최초의 최신 리뷰 연구임. 주요 딥러닝 아키텍처의 장단점을 비교 분석하고, 사용된 데이터셋과 성능을 종합적으로 정리하여 해당 분야 연구자들에게 유용한 참고 자료와 향후 연구 방향을 제시함.

Quality Prediction and Abnormal Processing Parameter Identification in Polypropylene Fiber Melt Spinning Using Artificial Intelligence Machine Learning and Deep Learning Algorithms

· 약 5분
Amit Kumar Gope
연구원
Yu-Shu Liao
연구원
Chung-Feng Jeffrey Kuo
연구원

논문 정보

  • 제목: Quality Prediction and Abnormal Processing Parameter Identification in Polypropylene Fiber Melt Spinning Using Artificial Intelligence Machine Learning and Deep Learning Algorithms
  • 저자: Amit Kumar Gope, Yu-Shu Liao, Chung-Feng Jeffrey Kuo (National Taiwan University of Science and Technology)
  • 학회/저널: Polymers
  • 발행일: 2022-07-04
  • DOI: 10.3390/polym14132739
  • 주요 연구 내용: 딥러닝 신경망을 사용하여 폴리프로필렌(PP) 용융 방사 공정의 다중 품질 특성을 예측하고 최적의 공정 파라미터를 탐색함. 이후, 품질 이상 데이터가 주어졌을 때 랜덤 포레스트를 포함한 여러 머신러닝 및 딥러닝 방법을 비교하여 이상 원인이 되는 공정 파라미터를 식별하는 2단계 진단 시스템을 개발.
  • 주요 결과 및 결론: 랜덤 포레스트 모델이 이상 공정 파라미터 식별에서 가장 우수한 성능을 보임. 단일/이중 요인 식별 정확도 100%, 단일 요인 분류 정확도 98.3%, 이중 요인 분류 정확도 96.0%를 달성하여 제안된 진단 방법의 효과를 입증.
  • 기여점: PP 용융 방사 공정에서 제품 품질 저하의 원인이 되는 공정 파라미터를 신속하고 정확하게 진단하는 인공지능 기반 시스템을 제안함. 이를 통해 기존의 전문가 의존적 분석 시간을 단축하고 공정 제어 안정성을 높여 생산 비용 절감에 기여.

딥러닝 기반 폴리에스터 섬유의 염색색상 결과예측 모형 개발

· 약 4분
이우창
연구원
손현식
연구원
이충권
연구원

논문 정보

  • 제목: 딥러닝 기반 폴리에스터 섬유의 염색색상 결과예측 모형 개발 (Development of a model for predicting dyeing color results of polyester fibers based on deep learning)
  • 저자: 이우창(다이텍연구원), 손현식(다이텍연구원), 이충권(계명대학교 경영정보학전공 교수)
  • 학회/저널: 스마트미디어저널 (Smart Media Journal)
  • 발행일: 2022-04-18
  • DOI: 10.30693/SMJ.2022.11.3.74
  • 주요 연구 내용: 폴리에스터 섬유 염색 공정 최적화를 위해 376건의 실험 데이터를 수집하고, 이를 다층퍼셉트론(MLP), CNN, LSTM 딥러닝 모델에 학습시켜 최종 염색 색상(L*, a*, b*)을 예측함. 각 모델의 성능은 K-겹 교차 검증을 통해 평가 및 비교됨.
  • 주요 결과 및 결론: 세 가지 모델 중 염색 공정의 순차적 특성을 반영한 LSTM 모델이 가장 우수한 예측 성능을 보임. LSTM 모델은 CMC(2:1) 색차 평균이 0.6479로 가장 낮았고, L*, a*, b* 각 값에 대한 R-Square 값도 가장 높아 분산 설명력이 뛰어났음.
  • 기여점: 본 연구는 딥러닝 기술을 염색 공정에 적용하여 객관적인 색상 예측 모델을 개발함. 특히 LSTM 모델의 우수성을 입증함으로써, 작업자의 숙련도에 대한 의존도를 낮추고 재염 발생을 줄여 염색 공정의 효율성과 품질을 최적화할 수 있는 가능성을 제시함.

Fabric Defect Classification Using Combination of Deep Learning and Machine Learning

· 약 3분
Semih UTKU
연구원
Hakan ÖZDEMİR
연구원

논문 정보

  • 제목: Fabric Defect Classification Using Combination of Deep Learning and Machine Learning
  • 저자: Fatma Günseli YAŞAR ÇIKLAÇANDIR (İzmir Katip Çelebi University), Semih UTKU (Dokuz Eylul University), Hakan ÖZDEMİR (Dokuz Eylul University)
  • 학회/저널: Journal of Artificial Intelligence and Data Science (JAIDA)
  • 발행일: 2021-08-12
  • DOI: 제공되지 않음
  • 주요 연구 내용: 딥러닝 모델(ResNet18, GoogLeNet)을 이용한 원단 불량 분류와, 이 모델들에서 특징만 추출하고 분류는 SVM(Support Vector Machines)으로 수행하는 하이브리드 방식의 성능을 비교 분석함. 딥러닝의 단점인 긴 처리 시간을 개선하는 것을 목표로 함.
  • 주요 결과 및 결론: 순수 ResNet18 모델이 가장 높은 분류 정확도(최대 87.5%)를 보였으나, ResNet18로 특징을 추출하고 SVM으로 분류하는 하이브리드 모델은 정확도 저하가 크지 않으면서도 분류 시간을 약 60배 단축시키는 결과를 보임.
  • 기여점: 딥러닝의 높은 특징 추출 능력과 머신러닝 분류기의 속도 이점을 결합하여, 원단 불량 검출 시스템에서 시간 효율성과 정확성 간의 균형을 맞춘 실용적인 접근법을 제시함. 이를 통해 속도가 중요한 실제 생산 환경에 적용 가능한 지능형 시스템의 가능성을 보임.

Improving Viewing Experiences of First-Person Shooter Gameplays with Automatically-Generated Motion Effects

· 약 6분
Gyeore Yun
POSTECH 연구원
Hyoseung Lee
연구원
Sangyoon Han
연구원
Seungmoon Choi
POSTECH 교수

논문 정보

  • 제목: Improving Viewing Experiences of First-Person Shooter Gameplays with Automatically-Generated Motion Effects
  • 저자: Gyeore Yun, Sangyoon Han, Hyoseung Lee, Seungmoon Choi (Pohang University of Science and Technology)
  • 학회/저널: CHI Conference on Human Factors in Computing Systems (CHI '21)
  • 발행일: 2021-05-08
  • DOI: 10.1145/3411764.3445358
  • 주요 연구 내용: 1인칭 슈팅(FPS) 게임 시청 경험을 향상시키기 위해, 게임의 시청각(audiovisual) 스트림을 분석하여 자동으로 모션 효과를 생성하는 두 가지 알고리즘을 제안함. 첫 번째는 컴퓨터 비전 기술을 이용해 카메라 움직임을 추정하여 캐릭터의 이동을 표현, 두 번째는 딥러닝 모델로 총소리를 탐지하여 총기 반동 효과를 생성함.
  • 주요 결과 및 결론: 사용자 연구 결과, 제안된 모션 효과가 게임 시청의 즐거움과 몰입감을 유의미하게 향상시킴. 특히 캐릭터 움직임과 총기 발사 효과를 결합했을 때(ME-COM) 시너지 효과를 보이며 가장 높은 몰입감과 선호도를 얻음. 모션 효과는 시청자의 게임 집중력을 방해하지 않았으나, 피로도는 다소 증가시키는 것으로 나타남.
  • 기여점: FPS 게임에 특화된 두 가지 모션 합성 알고리즘을 설계하고 통합했으며, 자동으로 생성된 다감각 효과가 e스포츠 시청 경험에 실질적인 이점을 제공한다는 경험적 증거를 제시함. 이는 개발자의 수동 작업 없이 다양한 게임에 4D 효과를 적용할 수 있는 확장 가능한 방법을 제안한다는 점에서 의의가 있음.

Attention Is All You Need

· 약 6분
Ashish Vaswani
Google Research 연구원
Noam Shazeer
연구원
Niki Parmar
연구원
Jakob Uszkoreit
연구원
Llion Jones
연구원
Aidan Gomez
연구원
Lukasz Kaiser
연구원
Illia Polosukhin
연구원

논문 정보

  • 제목: Attention Is All You Need
  • 저자: Ashish Vaswani (Google Brain), Noam Shazeer (Google Brain), Niki Parmar (Google Research), Jakob Uszkoreit (Google Research), Llion Jones (Google Research), Aidan N. Gomez (University of Toronto), Łukasz Kaiser (Google Brain), Illia Polosukhin
  • 학회/저널: 31st Conference on Neural Information Processing Systems (NIPS 2017)
  • 발행일: 2017-12-06
  • DOI: 10.48550/arXiv.1706.03762
  • 주요 연구 내용: 이 연구는 순환(recurrence) 및 합성곱(convolution)을 완전히 배제하고 오직 어텐션(attention) 메커니즘에만 의존하는 새로운 시퀀스 변환 모델인 '트랜스포머'를 제안함. 트랜스포머는 인코더-디코더 구조를 따르며, 각 부분은 여러 개의 동일한 레이어를 쌓아 구성되고, 각 레이어는 멀티-헤드 셀프-어텐션과 위치별 피드포워드 네트워크라는 두 개의 핵심적인 하위 레이어로 이루어짐.
  • 주요 결과 및 결론: 트랜스포머는 기계 번역 작업에서 기존의 최고 성능 모델들을 능가하는 결과를 보임. WMT 2014 영어-독일어 번역 태스크에서 28.4 BLEU 점수를 기록하여 기존 최고 기록을 2 BLEU 이상 경신하며, 영어-프랑스어 번역 태스크에서는 41.8 BLEU 점수로 새로운 단일 모델 최고 기록을 세움. 이러한 성과를 기존 모델들보다 훨씬 적은 훈련 시간으로 달성하여 병렬화의 이점을 입증함.
  • 기여점: 본 논문은 어텐션 메커니즘만으로도 시퀀스 변환 작업에서 최첨단 성능을 달성할 수 있음을 보여줌. 순차적 계산에 의존하는 RNN을 병렬 계산이 가능한 셀프-어텐션으로 대체함으로써 훈련 속도를 크게 향상시키고, 더 우수한 번역 품질을 달성하는 새로운 패러다임을 제시함.

An End-to-End Trainable Neural Network for Image-Based Sequence Recognition and Its Application to Scene Text Recognition

· 약 5분
Baoguang Shi
Huazhong University of Science and Technology 연구원
Xiang Bai
연구원
Cong Yao
연구원

논문 정보

  • 제목: An End-to-End Trainable Neural Network for Image-Based Sequence Recognition and Its Application to Scene Text Recognition
  • 저자: Baoguang Shi, Xiang Bai, Cong Yao (Huazhong University of Science and Technology)
  • 학회/저널: IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE
  • 발행일: 2016-12-28
  • DOI: 10.1109/TPAMI.2016.2646371
  • 주요 연구 내용: 이미지 기반 시퀀스 인식을 위해 Convolutional Neural Network(CNN)와 Recurrent Neural Network(RNN)을 통합한 새로운 아키텍처인 CRNN(Convolutional Recurrent Neural Network)을 제안함. 이 모델은 특징 추출(CNN), 시퀀스 모델링(RNN), 전사(Transcription)의 세 부분을 하나의 프레임워크로 결합하여 문자 단위의 레이블 없이 종단간(End-to-End) 학습이 가능함.
  • 주요 결과 및 결론: IIIT-5K, SVT, ICDAR 등 표준 장면 텍스트 인식 벤치마크에서 기존 최고 수준의 알고리즘들과 대등하거나 더 우수한 성능을 보임. 또한, 제안된 모델은 훨씬 적은 파라미터(8.3M)를 사용하여 효율적이며, 악보 인식과 같은 다른 시퀀스 인식 문제에도 일반화될 수 있음을 확인함.
  • 기여점: 기존 방법들과 달리 구성 요소를 개별적으로 훈련할 필요 없는 완전한 종단간 학습이 가능함. 문자 분할이나 정규화 과정 없이 임의 길이의 시퀀스를 자연스럽게 처리하며, 사전(lexicon) 유무에 관계없이 높은 성능을 달성함.