Skip to main content

Mamba: Linear-Time Sequence Modeling with Selective State Spaces

· 6 min read
Albert Gu
Stanford University 연구원
Tri Dao

논문 정보

  • 제목: Mamba: Linear-Time Sequence Modeling with Selective State Spaces
  • 저자: Albert Gu (Carnegie Mellon University), Tri Dao (Princeton University)
  • 학회/저널: arXiv
  • 발행일: 2024-05-31
  • DOI: 10.48550/arXiv.2312.00752
  • 주요 연구 내용: 기존 상태 공간 모델(SSM)의 한계인 내용 기반 추론(content-based reasoning) 능력 부재를 해결하기 위해, 모델의 파라미터가 입력에 따라 동적으로 변하는 '선택 메커니즘'을 도입함. 이로 인해 비효율적으로 변하는 계산 문제를 해결하기 위해 GPU 메모리 계층 구조를 활용한 하드웨어 친화적인 병렬 스캔 알고리즘을 설계함.
  • 주요 결과 및 결론: Mamba는 시퀀스 길이에 대해 선형적으로 확장되며, Transformer 대비 5배 높은 추론 처리량을 보임. 언어, 음성, 유전체 등 다양한 모달리티에서 기존 SOTA 모델 및 Transformer의 성능을 능가했으며, 특히 언어 모델링에서는 동일 크기의 Transformer를 압도하고 2배 큰 모델과 대등한 성능을 달성함.
  • 기여점: 첫째, SSM에 입력 의존적인 선택 메커니즘을 도입하여 시퀀스 내 정보를 선택적으로 처리하는 능력을 부여함. 둘째, 이 선택적 SSM을 효율적으로 계산하기 위한 하드웨어 인식 병렬 알고리즘을 개발함. 셋째, 어텐션과 MLP 블록 없이 선택적 SSM을 통합한 단순하고 효율적인 Mamba 아키텍처를 제안함.

Optimization of spinning processes in textile manufacturing using reinforcement learning

· 4 min read
Seyed Mohammad Mehdi Sajadieh
Hye Kyung Choi
성균관대학교 연구원
Whan Lee
성균관대학교 연구원
Sang Do Noh
성균관대학교 교수

논문 정보

  • 제목: Optimization of spinning processes in textile manufacturing using reinforcement learning
  • 저자: SMM Sajadieh, Hye Kyung Choi, Whan Lee, Sang Do Noh (Sungkyunkwan University), Seung bum Sim (Korea Textile Development Institute)
  • 학회/저널: IISE Annual Conference & Expo 2024
  • 발행일: 2024-05-18
  • DOI: 10.21872/2024IISE_6980
  • 주요 연구 내용: 기존 회귀 모델을 기반으로 보상 계산을 수행하는 Q-러닝 알고리즘을 제안하여 섬유 방사 공정을 최적화함. 이 데이터 기반 접근법은 공정 변수를 자동으로 조정하여 원하는 강도와 신율을 가진 섬유를 생산하는 최적의 레시피를 추천함.
  • 주요 결과 및 결론: 실제 방사 공정 데이터에 제안된 알고리즘을 적용하여, 사전 경험이 없는 고강도 섬유 생산을 위한 22개의 최적 공정 레시피를 도출함. 검증 결과, 86%의 정확도를 달성하며 제안 방법의 실용적 효용성을 입증함.
  • 기여점: 기존의 전문가 경험이나 시행착오에 의존하던 방사 공정 최적화를 데이터 기반 강화학습으로 대체함. 이를 통해 생산 비용과 시간을 절감하고, 지능형 제조 기술의 학술적, 산업적 이해와 적용을 촉진하는 방법론을 제시함.

Polymer design via SHAP and Bayesian machine learning optimizes pDNA and CRISPR ribonucleoprotein delivery

· 4 min read
Rishad J. Dalal
University of Minnesota 연구원

논문 정보

  • 제목: Polymer design via SHAP and Bayesian machine learning optimizes pDNA and CRISPR ribonucleoprotein delivery
  • 저자: Rishad J. Dalal (University of Minnesota), Felipe Oviedo (Nanite Inc., University of Minnesota), Michael C. Leyden (University of Minnesota), Theresa M. Reineke (University of Minnesota)
  • 학회/저널: Chemical Science
  • 발행일: 2024-04-22
  • DOI: 10.1039/d3sc06920f
  • 주요 연구 내용: 길이, 이원 조성, pKavpK_{av}, 소수성(clog P)을 체계적으로 변화시킨 폴리머 라이브러리를 합성함. SHAP(SHapley Additive exPlanations) 분석과 베이지안 최적화(BO) 머신러닝을 결합하여 plasmid DNA(pDNA) 및 CRISPR-Cas9 리보핵단백질(RNP) 전달을 위한 정량적 구조-특성 관계를 해석하고 최적의 제형을 예측함.
  • 주요 결과 및 결론: pDNA 전달에는 낮은 폴리머 pKapK_{a}와 높은 benzimidazole ethanethiol(BET) 비율이 유리한 반면, RNP 전달에는 더 긴 폴리머 길이와 captamine(Cap) 양이온이 더 효과적임을 발견함. 머신러닝으로 최적화된 상위 3개 폴리머는 생체 내(in vivo)에서 대조군보다 1.7배 향상된 유전자 발현을 보이며 20일 이상 안정적으로 유지됨.
  • 기여점: 핵산의 종류에 따라 최적의 전달체 설계 파라미터가 다르다는 것을 설명 가능한 머신러닝(SHAP)을 통해 처음으로 규명함. 합성, 특성 분석, 머신러닝을 결합한 파이프라인을 제시하여 차세대 핵산 약물 전달체 개발을 가속화할 수 있는 강력한 도구를 제공함.

TRINITY: A Fast Compressed Multi-attribute Data Store

· 6 min read
Ziming Mao
UC Berkeley 연구원
Kiran Srinivasan
Anurag Khandelwal

논문 정보

  • 제목: TRINITY: A Fast Compressed Multi-attribute Data Store
  • 저자: Ziming Mao (UC Berkeley), Kiran Srinivasan (NetApp), Anurag Khandelwal (Yale)
  • 학회/저널: Nineteenth European Conference on Computer Systems (EuroSys '24)
  • 발행일: 2024-04-22
  • DOI: 10.1145/3627703.3650072
  • 주요 연구 내용: 본 논문은 다중 속성 레코드에 대해 빠른 쿼리와 높은 저장 효율성을 동시에 달성하는 인메모리 데이터 스토어 TRINITY를 제안함. 이를 위해 새로운 동적 압축 데이터 구조인 MDTRIE를 설계했으며, 이는 일반화된 모튼 코드(Generalized Morton Code)와 자기-인덱싱(self-indexed) 트라이 구조를 결합하여 압축된 데이터 표현 위에서 직접 다중 속성 쿼리를 수행함.
  • 주요 결과 및 결론: 실제 워크로드 평가 결과, TRINITY는 기존 최신 시스템 대비 7.2-59.6배 빠른 다중 속성 검색 성능을 보임. 저장 공간은 OLAP 컬럼 스토어와 유사하며 NoSQL 및 OLTP 데이터베이스보다 4.8-15.1배 적게 사용함. 또한, 포인트 쿼리 처리량은 NoSQL 스토어와 비슷하고 OLTP 및 OLAP 시스템보다 1.7-52.5배 높임.
  • 기여점: 본 논문은 효율적인 다중 속성 범위 검색과 포인트 쿼리를 모두 지원하는 동적, 압축, 자기-인덱싱 다차원 데이터 구조 MDTRIE를 설계함. 또한, MDTRIE를 활용하여 대규모 다중 속성 데이터셋을 저장하고 쿼리하는 분산 데이터 스토어 TRINITY를 구현하고, 실제 워크로드를 통해 그 성능을 입증함.

Application of Reinforcement Learning to Dyeing Processes for Residual Dye Reduction

· 5 min read
Whan Lee
성균관대학교 연구원
Seyed Mohammad Mehdi Sajadieh
Hye Kyung Choi
성균관대학교 연구원
Jisoo Park
Sang Do Noh
성균관대학교 교수

논문 정보

  • 제목: Application of Reinforcement Learning to Dyeing Processes for Residual Dye Reduction
  • 저자: Whan Lee, Seyed Mohammad Mehdi Sajadieh, Hye Kyung Choi, Jisoo Park, Sang Do Noh (Sungkyunkwan University)
  • 학회/저널: International Journal of Precision Engineering and Manufacturing-Green Technology
  • 발행일: 2024-04-16
  • DOI: 10.1007/s40684-024-00627-7
  • 주요 연구 내용: 실제 생산 시설에서 수집한 데이터를 활용하여 잔류 염료 배출을 예측하는 Gradient Boosting(GB) 모델과, 잔류 염료를 최소화하기 위한 공정 변수를 추천하는 Q-learning 기반의 강화학습 모델(DPRM)을 개발함.
  • 주요 결과 및 결론: 개발된 예측 모델은 R2R^2 값 0.96의 높은 예측 성능을 보였으며, 공정 변수 추천을 통해 평균 66.58%의 잔류 염료 감소를 달성함. 실제 현장 실험을 통해 두 가지 처방에서 각각 42.92%와 76.33%의 잔류 염료 감소 효과를 검증함.
  • 기여점: 고가의 추가 장비나 화학물질 없이, 데이터 기반의 강화학습 접근법을 통해 염색 공정의 잔류 염료 발생을 효과적으로 예측하고 줄이는 혁신적인 방법을 제안하여 친환경 공정 운영에 기여함.

Large Language Models for Test-Free Fault Localization

· 5 min read
Aidan Z.H. Yang
Ruben Martins
Claire Le Goues
Vincent J. Hellendoorn

논문 정보

  • 제목: Large Language Models for Test-Free Fault Localization
  • 저자: Aidan Z.H. Yang, Ruben Martins, Claire Le Goues, Vincent J. Hellendoorn (Carnegie Mellon University)
  • 학회/저널: 2024 IEEE/ACM 46th International Conference on Software Engineering (ICSE '24)
  • 발행일: 2024-04-14
  • DOI: https://doi.org/10.1145/3597503.3623342
  • 주요 연구 내용: 기존 결함 위치 탐지(Fault Localization) 기술들이 테스트 커버리지에 의존하는 한계를 극복하기 위해, 대규모 언어 모델(LLM)과 양방향 어댑터(Bidirectional Adapter)를 결합한 테스트 프리(Test-Free) 방식인 LLMAO를 제안한다.
  • 주요 결과 및 결론: Defects4J 벤치마크에서 기존의 최신 머신러닝 기반 결함 탐지(MLFL) 기술들보다 Top-1 정확도는 2.3%~54.4%, Top-5 정확도는 14.4%~35.6% 향상된 성능을 보였으며, 모델 크기가 커질수록 성능이 비례하여 증가함을 확인했다.
  • 기여점: 테스트 케이스 없이 소스 코드의 자연어적 특성만을 학습하여 결함을 탐지하는 최초의 LLM 기반 접근법을 제시했으며, 기능적 버그뿐만 아니라 보안 취약점 탐지까지 일반화 가능함을 입증했다.

Exploring the Competency of ChatGPT in Solving Competitive Programming Challenges

· 4 min read
Md. Eusha Kadir
Tasnim Rahman
Sourav Barman
Md. Al-Amin

논문 정보

  • 제목: Exploring the Competency of ChatGPT in Solving Competitive Programming Challenges
  • 저자: Md. Eusha Kadir, Tasnim Rahman, Sourav Barman, Md. Al-Amin (Institute of Information Technology, Noakhali Science and Technology University, Noakhali, Bangladesh)
  • 학회/저널: International Journal of Advanced Trends in Computer Science and Engineering
  • 발행일: 2024-02-06
  • DOI: 10.30534/ijatcse/2024/031312024
  • 주요 연구 내용: 본 연구는 300개의 경쟁적 프로그래밍 문제를 'Easy', 'Medium', 'Hard' 세 가지 난이도로 나누어 ChatGPT의 문제 해결 능력을 평가함. LeetCode 플랫폼의 문제들을 활용했으며, 프롬프트 엔지니어링을 적용하여 생성된 코드의 정확성을 온라인 저지 시스템을 통해 측정함.
  • 주요 결과 및 결론: ChatGPT는 전체 문제에 대해 66.00%의 정답률(acceptance rate)을 기록하여, 평균적인 인간 사용자의 52.95%를 상회하는 성능을 보임. 난이도별 정답률은 Easy 89.00%, Medium 68.00%, Hard 41.00%로, 문제의 복잡도가 증가할수록 성능이 저하되는 경향을 보임.
  • 기여점: ChatGPT의 경쟁적 프로그래밍 문제 해결 능력을 인간과 비교하여 체계적으로 평가한 초기 연구 중 하나임. 효과적인 코드 생성을 위한 프롬프트 엔지니어링의 중요성을 입증하고, 복잡한 문제 해결에서 나타나는 AI의 한계점을 명확히 제시함.

Utilizing calcined and raw fly oil shale ash in the carbonation process of OPC cement-paste and mortar

· 4 min read
Wesam Salah Alaloul
University Teknologi PETRONAS 연구원
Marsail Al Salaheen
Khalid Alzubi
Muhammad Ali Musarat

논문 정보

  • 제목: Utilizing calcined and raw fly oil shale ash in the carbonation process of OPC cement-paste and mortar
  • 저자: Wesam Salah Alaloul (Universiti Teknologi PETRONAS), Marsail Al Salaheen (Al-Balqa Applied University), Khalid Alzubi (Al-Balqa Applied University), Muhammad Ali Musarata (Universiti Teknologi PETRONAS)
  • 학회/저널: Case Studies in Construction Materials
  • 발행일: 2024-02-04
  • DOI: 10.1016/j.cscm.2024.e02945
  • 주요 연구 내용: 본 연구는 일반 포틀랜드 시멘트(OPC) 페이스트와 모르타르에서 미처리 및 소성 처리된 플라이 오일 셰일 애쉬(FOSA)를 시멘트 대체재로 사용하고, 전통적인 수중 양생과 이산화탄소(CO_2) 양생의 효과를 비교 분석함. FOSA의 소성 온도와 대체율을 달리하여 기계적 특성과 미세구조 변화를 종합적으로 평가함.
  • 주요 결과 및 결론: CO_2 양생을 적용한 FOSA 혼입 샘플은 수중 양생 샘플 대비 압축 강도가 최대 200%까지 증가하는 등 기계적 성능이 크게 향상됨. 이는 CO_2 양생 과정에서 탄산칼슘(CaCO_3) 결정과 같은 수화물이 형성되어 미세구조가 치밀해지기 때문임.
  • 기여점: 산업 부산물인 FOSA를 건설 재료로 재활용하고, 온실가스인 CO2CO_{2}를 포집하여 재료 성능을 향상시키는 방안을 제시함. FOSA와 CO_2 양생의 시너지 효과를 규명하여 환경친화적이고 지속 가능한 건설 재료 개발에 기여함.

Machine learning based prediction models for spilt tensile strength of fiber reinforced recycled aggregate concrete

· 6 min read
Wesam Salah Alaloul
University Teknologi PETRONAS 연구원
IBRAHIM YOUSSEF ALYOUSSEF

논문 정보

  • 제목: Machine learning based prediction models for spilt tensile strength of fiber reinforced recycled aggregate concrete

  • 저자: Mohammed Alarfaj, Hisham Jahangir Qureshi (King Faisal University), Muhammad Zubair Shahab (COMSATS University Islamabad), Muhammad Faisal Javedd (Ghulam Ishaq Khan Institute), Md Arifuzzaman, Yaser Gamil (Monash University Malaysia)

  • 학회/저널: Case Studies in Construction Materials

  • 발행일: 2024-01-05

  • DOI: 10.1016/j.cscm.2024.e02945

  • 주요 연구 내용: 섬유보강 재생골재 콘크리트(FRAC)의 쪼갬 인장강도(STS)를 예측하기 위해 심층 신경망, 베이즈 최적화 가우시안 과정 회귀, 유전자 발현 프로그래밍을 기반으로 총 5개의 모델(DNN1, DNN2, OGPR, GEP1, GEP2)을 개발. 10개의 입력 변수와 1개의 출력 변수로 구성된 257개의 데이터 포인트를 수집하여 모델 학습(80%) 및 테스트(20%)에 사용. 관련성 계수와 순열 특성 중요도를 이용한 민감도 분석 수행.

  • 주요 결과 및 결론: 3개의 은닉층을 가진 심층 신경망 모델인 DNN2가 테스트 단계에서 R2 값 0.94, MAE 0.187 MPa, RMSE 0.255 MPa를 기록하며 가장 우수한 예측 성능을 보임. 전반적인 성능은 DNN2, OGPR, DNN1, GEP2, GEP1 순으로 높게 나타났으며, DNN과 OGPR 모델이 GEP 모델보다 더 강력하고 효율적인 예측 능력을 보여줌. 시멘트 함량, 천연 굵은 골재, 재생골재 밀도, 고성능 감수제는 쪼갬 인장강도에 긍정적인 영향을 미치는 주요 요인으로 확인됨.

  • 기여점: 섬유보강 재생골재 콘크리트의 쪼갬 인장강도 예측을 위한 다양한 머신러닝 모델의 성능을 체계적으로 비교 분석하여 최적의 예측 모델을 제시. 지속가능한 건설 재료로서 재생골재 콘크리트의 활용 가능성을 높이는 데 기여. 민감도 분석을 통해 콘크리트 강도에 영향을 미치는 주요 요인들을 정량적으로 규명하여 향후 콘크리트 설계 및 제조에 실용적인 가이드라인 제공.

From image to UML: First results of image-based UML diagram generation using LLMs

· 5 min read
Aaron Conrardy
Jordi Cabot

논문 정보

  • 제목: From image to UML: First results of image-based UML diagram generation using LLMs
  • 저자: Aaron Conrardy (Luxembourg Institute of Science and Technology), Jordi Cabot (Luxembourg Institute of Science and Technology, University of Luxembourg)
  • 학회/저널: First Large Language Models for Model-Driven Engineering Workshop (LLM4MDE 2024)
  • 발행일: 2024
  • DOI: (제공되지 않음)
  • 주요 연구 내용: 본 연구는 GPT-4V, Gemini (Pro/Ultra), CogVLM과 같은 최신 시각적 LLM을 사용하여, 손으로 그린 UML 클래스 다이어그램 이미지를 PlantUML 텍스트 코드로 변환하는 성능을 평가함. 다이어그램의 복잡도, 의미적 정확성, 프롬프트의 상세 수준을 변수로 설정하여 실험을 수행함.
  • 주요 결과 및 결론: GPT-4V가 PlantUML 구문 오류 없이 가장 정확하고 일관된 변환 결과를 보여주었음. 반면, 다른 모델들은 구문 오류가 잦거나(Gemini, CogVLM), 의미적으로 무의미한 다이어그램의 변환을 거부하는 경향을 보임.
  • 기여점: LLM을 활용한 이미지 기반 UML 다이어그램 생성 가능성을 최초로 실증적으로 평가함. 소프트웨어 엔지니어링 초기 설계 단계에서 발생하는 수동 모델링 작업을 자동화하여 '로우-모델링(low-modeling)'을 지원할 수 있음을 시사하며, 현재 기술 수준에서는 '인간-참여형(human-in-the-loop)' 접근이 필수적임을 강조함.