딥러닝/컴퓨터비전 8

[컴퓨터비전10] 자율주행자동차의 핵심 알고리즘, 객체 인식(Object Detection) 기본 개념 정리

안녕하세요. 데이터 요리사, 루나 입니다. 자율주행 자동차는 실시간으로 주변의 객체를 인지하고, 상황을 판단해서, 차량을 제어하는 엄청난 기술의 총 집합체라고 할 수 있습니다. 이번 글에서는 주변의 객체를 인지하는 기술인 '객체인식(Object Detection) 알고리즘'에 대해서 정리해봅시다. 1 객체인식(Obeject Detection)이란? Multiple object + Classification + Localization 객체인식은 결국 2 category classification 문제: O(찾고자 하는 객체), X(찾고자하는 객체가 아닌 경우) 객체인식 분야의 주요 알고리즘 Proposal 단계 有: RCNN(Region CNN), Fast RCNN, Faster RCNN, RFCNN, M..

[컴퓨터비전7] ResNet(ILSVRC 2015 top1)

안녕하세요. 데이터 요리사, 루나 입니다. 이번 시간에는 딥러닝 구조에 Residual 열풍을 이끈 'ResNet'에 대해서 정리하겠습니다. 1 ResNet이란? 마이크로소프트에서 개발한 CNN구조로 2015년 ILSVRC에서 에러율 3.57%로 1위를 차지한 신경망 총 152개의 레이어로 구성: Conv. block + Identity block 논문: Deep Residual Learning for Image Recognition 2 ResNet의 주요 특징 Skip connection(Identifu mapping) 구조 일정 이상의 Conv. layer 추가 시 학습 성능의 저하 발생함 Lower level의 피처를 재사용하여 성능을 개선하고, 기울기 소멸 문제를 완화 weight에 대한 loss..

[컴퓨터비전6]GoogLeNet(ILSVRC 2014 top1)

1. 개요 구글에서 개발한 CNN구조로 2014년 ILSVRC에서 에러율 00%로 1위를 차지한 신경망 총 22개의 레이어로 구성 2. 특징 인셉션(Inception) 모듈(Parallel filters concatenation) 다른 사이즈의 필터(1x1, 3x3, 5x5)를 사용하는 컨볼루션을 병렬로 연결하여, 다른 특징을 추출하도록 함 split - transform - merge 전략 총 9개의 인셉션 모듈 사용 Bottleneck 구조(1x1 filter) 연산 시 발생하는 bottleneck을 제거하기 위해 채널 차원의 차원 축소를 진행 피처 추출 능력은 없으나, 컨볼루션 연산 시 비선형성을 더함 보조 분류기 분류의 변별력을 높이기 위해, 역전파 시 gradient signal을 증가하도록 2..

[컴퓨터비전5]VGGNet(ILSVRC 2014 top2)

1. 개요 영국의 옥스포드 대학교에서 개발한 CNN구조로 2014년 ILSVRC에서 에러율 00%로 2위를 차지한 신경망 총 16개의 레이어로 구성 : 13 Conv layer + 3 FC layer VGG16, VGG19 2. 특징 3 x 3 커널만을 사용한 Conv. Layer 사용 기존에는 Receptive Field를 넓혀주기 위해 7x7 커널이나 11x11 커널을 사용한 Conv. layer를 첫 레이어로 적용했음 3x3 커널을 여러 번 적용 시, 같은 Receptive Filed를 가지면서 ① 비선형성은 증가하고, ② 가중치 수는 적어지는 장점이 있다는 것을 발견 3. 구조

[컴퓨터비전4]AlexNet(ILSVRC 2012 top1)

1. 개요 캐나다의 토론토 대학교에서 개발한 CNN구조로 2012년 ILSVRC에서 에러율 16.4%로 1위를 차지한 신경망 총 8개의 레이어로 구성 : 5 Conv layer + (3 Pooling layer) + 3 FC layer 2. 특징 1990년에 Yann Lecun이 개발한 LeNet과 동일한 구조(5 conv layer)이지만, 1000개의 카테고리를 갖는 컬러 이미지(color image)를 분류할 수 있도록 학습 2개의 GPU간 통신을 할 수 있도록 구성 ReLU 적용 Data augmentation FC layer에서 Drop out 수행 Xavier initalization 적용 3. 구조

[컴퓨터비전3]CNN 연산 시 사용하는 메모리, 파라미터 계산

ci-1 = 이전 층의 채널(필터) 수 ci = 현재 층의 채널(필터) 수 mi-1 = 이전 피처맵 사이즈 mi = 현재 피처맵 사이즈 k = 필터 사이즈 구분 유형 수식 설명 Storage 파라미터 수 k x k x ci-1 x ci = 가중치 수 . 학습 이후에 메모리에 저장되는 값 뉴런 수 mi x mi x ci = 메모리 사용량 . 학습이 완료된 신경망을 사용하여 추론(reference)할 때 차지하는 메모리 사이즈 Computational OPS (FLOPS) k x k x mi x mi x ci-1 x ci . 추론과정에서 연산 속도에 영향을 줌 . 학습과정에서는 그리 중요하지 않음

[컴퓨터비전2]CNN을 설정하는 하이퍼파라미터 이해하기

구분 하이퍼파라미터 비고 Conv. Layer 레이어수 Receptive Field가 입력 이미지 크기를 충분히 커버하도록 설정 필터 크기 홀수로 설정 필터 수 2의 지수승으로 설정 stride 1보다 크게 설정할 할 경우, 연산 속도가 빨라지지만 정보손실이 발생함 padding 피처맵 사이즈와 입력 사이즈를 동일하게 하고 싶을 경우 설정 Pooling Layer 레이어 수 window 크기 stride padding FC Layer 레이어 수 노드 수 Back Propagation learning rate batch number momentum coefficient L2 coefficient

[컴퓨터비전1]CNN(Convolution Neural Network) 한 장 요약 정리!

1. CNN이란? "이미지 처리에 탁월한 성능을 보이는 인공신경망" '셀마다 특정 자극에 반응하는 생물학적 구조를 반영한 지도 학습 기반의 피드 포워드 신경망'이라는 표현을 이해할 수 있다면 이 표현이 CNN에 대한 좋은 정의라 할 수 있겠다. 이게 무슨 멍멍이 소리냐 싶으면, '이미지 처리 할 때 자주 쓰는 신경망이다'라고 기억해두시길. (참고) 이미지 처리? 이도 엄밀히 말하면 '컴퓨터 비전' 분야라고 표현하는 것이 올바르다. 사람의 눈(시각, vision)에 해당하는 역할을 컴퓨터에 구현한 것이니 다루는 데이터의 유형이 '이미지'인 것이다. '컴퓨터 비전' 분야에서 연구하는 대표적인 분야는 이미지 분류(Classification), 이미지 분할(Segmentation), 객체 인식(Object De..

LIST