Projects 13

GAN 학습 도중 PyTorch DataLoader 'can only test a child process' 해결기

Colab 환경에서 멀티프로세싱 충돌을 겪고 배운 것들 TL;DR (요약)GAN 실험 중, 1000 epoch을 완주하는 도중 계속 DataLoader 관련 이상현상 발생현상: AssertionError: can only test a child process원인: Colab에서 DataLoader(num_workers>0) 사용 시 발생하는 멀티프로세싱 충돌해결법: num_workers=0 으로 설정핵심 교훈: PyTorch 모델만 잘 짠다고 끝이 아니다. 환경의 특성까지 고려하자!이상현상 발생 상황프로젝트 배경: DCGAN(Deep Convolutional GAN)을 사용해서 해바라기 이미지를 생성하는 실험을 진행하고 있었습니다. 데이터셋은 약 1,000장의 해바라기 이미지로 구성되어 있었고, Goog..

[미니 과제] 금융 문서 특화 OCR 파이프라인 구축기 — 4일간의 팀 과제

0. 프롤로그 4일동안 5명이 팀이 되어 OCR 엔진을 비교하고 개선하는 실험을 했다. 결과보다 재미있었던 건 과정속에서 나온 수많은 시행착오와 질문이었다. 1. 과제 개요금융권에 재직당시 "고객이 쓴 서류를 스캔 한 번으로 다 읽어주고 전산에 반영까지 된다면 얼마나 편할까?" 라는 생각을 해본 적이 있었다. 그래서 이 과제를 통해 글자들이 어떻게 인식되고 인식률과 속도를 높일 수 있는 방법은 뭐가 있을 지 탐구해볼 수 있겠다라는 기대가 컸다. 2. 데이터셋 선정 과정 후보 데이터셋으로는 한국 식당의 메뉴판, 차량 번호판 데이터, 항만 컨테이너 데이터 등이 있었다. 나는 "금융 서류" 의견을 냈다. 아래와 같은 이유를 바탕으로 팀원들에게 내 의견을 피력했다. 1. 주어진 리소스 안에서 데드라인까지..

실무 활용 가능한 금융 OCR 모델

금융 도메인 특화 모델 소개 (OCR)1. LongFin설명: 금융 분야 장문 문서(보고서, 계약서, 재무제표 등) 이해를 위한 멀티모달 모델특징: 최대 4,000 토큰까지 처리 가능, 텍스트+레이아웃+시각 정보 통합 분석용도: 금융 보고서 요약, 질의응답, 장문 문서 분석공식 문서: https://arxiv.org/abs/2401.15050 LongFin: A Multimodal Document Understanding Model for Long Financial Domain DocumentsDocument AI is a growing research field that focuses on the comprehension and extraction of information from scanned an..