Data Science
-
머신러닝에서의 이상 탐지 종류(Anormaly Detection)Data Science/데이터마이닝 2022. 11. 21. 22:39
1. 이상탐지란? 이상탐지는 정상(Normal)/비정상(Anormal)을 구분하는 문제이다. 대표적인 방법으로는 머신러닝에서 많이 해오던 이진 분류(Binary Classification)가 있다. 그러나 일반적인 분류문제로 풀기에 이상탐지 분야는 Class의 불균형(Class Unbalanced)이 너무 심각하다. 대부분의 이상탐지 문제는 아래 두가지 케이스에 해당된다. Case1 : 정상 데이터만 존재하는 경우 Case2 : 대다수의 정상 데이터와 소수의 비정상 데이타가 있는 경우 빅데이터분석기사나 여타 데이터마이닝 분야에서 Class의 불균형 문제의 해답으로 Over/Under Sampling을 소개하고 있지만 실제로는 효과를 거두기 어렵다. 1.1 Over Sampling의 한계 Over samp..
-
Pytorch Lightning 사용가이드 및 코드 예시(Scene Classification Dataset)Data Science/Pytorch 2022. 11. 17. 02:24
1. Pytorch Lightning이란? Tensorflow의 Keras와 같이 Pytorch를 위한 라이브러리이다. pytorch lightning의 전반적 동작 구조는 아래와 같다. 2. 라이브러리 준비 from glob import glob import torch import torch.utils.data as data from torchvision import transforms import PIL from torchvision.datasets import ImageFolder from torchvision.models import resnet18 from torch.optim import Adam from torch.nn import functional, CrossEntropyLoss from..
-
Faster R-CNN(Faster Regions with Convolutional Neuron Networks features) 모델 개념 설명Data Science/ML&DL 모델 2022. 11. 16. 22:38
본 포스팅은 R-CNN 및 Fast R-CNN을 알고있다는 가정하에 작성되었습니다. 따라서 위의 내용과 중복되는 내용은 생략되었습니다. R-CNN(Regions with Convolutional Neuron Networks features) 모델 개념 설명 Fast R-CNN(Fast Regions with Convolutional Neuron Networks features) 모델 개념 설명 1. Faster R-CNN이란? 기존의 Fast R-CNN에서의 단점을 극복한 2-path object detection model이다. Selective search를 통해서 RoI를 추출하는 과정이 많은 시간을 소요하여 병목현상 일으켰다.(cpu 수행) => Gpu를 활용할 수 있는 Region Proposa..
-
Fast R-CNN(Fast Regions with Convolutional Neuron Networks features) 모델 개념 설명Data Science/ML&DL 모델 2022. 11. 15. 00:09
해당 포스팅은 R-CNN을 알고있다는 가정하에 작성되었습니다. R-CNN(Regions with Convolutional Neuron Networks features) 모델 개념 설명 1. Fast R-CNN이란? Fast R-CNN은 R-CNN이 기존에 가지고 있던 단점을 보완함을써 더욱 빠른 처리속도를 가지는 모델이다. 2000개의 RoI가 각자 CNN을 통과하여 Feature Vector를 생산하여 많은 연산량이 요구되었다. => 원본이미지만 CNN에 통과시켜 Feature Map을 생성한다. => RoI와 Feature Map을 RoI Pooling Layer에 넣어 Feature Vector를 생성한다. Multi Stage Model로써 End-to-End 학습이 불가능하다. => Featur..
-
R-CNN(Regions with Convolutional Neuron Networks features) 모델 개념 설명Data Science/ML&DL 모델 2022. 11. 12. 17:03
1. R-CNN이란? 1) 이미지 입력 2) regional proposal 출력 3) 이미지 전처리(동일 사이즈) 4) 예측 2. Region Proposal R-CNN에서는 CNN에 넣을 Region을 찾기위해서 selective search 방법을 사용했다. selective search는 sliding window의 단점을 극복한 방법이다. 2.1 Sliding Window 이미지에 window를 슬라이딩하며 물체가 존재하는지 확인하는 방법. window로 이미지의 모든 부분을 탐색해야하여 많은 시간을 소모하는 단점. 탐지하고자하는 객체들의 크기가 다양하다면 고정된 window가 정확히 맞지 않는다는 단점. (다양한 window의 윈도우를 사용해야함.) R-CNN에서는 해당 방법을 사용하지 않음...
-
최적화 함수 종류 및 개념(Optimization Function)Data Science/데이터마이닝 2022. 11. 11. 23:48
1. Gradient Descent(GD, 경사하강법) 함수의 기울기를 구하고 기울기의 반대 방향으로 이동시켜 최소값에 이르를때까지 반복하는 기법. ML모델의 최적화시에 전체 데이터를 모두 사용하기에 Batch Gradient Descent라고 부르기도 한다. 모든 데이터에 대한 loss를 구해야하기 때문에 많은 연산량을 요구한다. $$ w_{i+1} = w_{i}-\gamma _{i}\triangledown f(w_{i}) $$ \( \gamma \) : 이동 거리를 조절하는 매개변수, 흔히 Learning rate(학습률)로써 ML분야에서 쓰인다. \( \triangledown \) : 미분연산자를 의미한다. (nabla, 나블라) 2. Gradient Descent 종류에서 주의해야할 점 2.1 적..
-
Pytorch Resnet 예시코드(CNN, Resnet18, Cats and Dogs Dataset, Augmentation)Data Science/Pytorch 2022. 11. 10. 00:44
1. Data Set 준비하기 1.1 Data .zip 파일 다운받기 !wget --no-check-certificate \ https://storage.googleapis.com/mledu-datasets/cats_and_dogs_filtered.zip \ -O ./cats_and_dogs_filtered.zip 1.2 .zip 파일 압축 풀기 ! unzip -q cats_and_dogs_filtered.zip -d ./ 1.3 파일 구조 "cats and dogs filtered" 폴더 내부에서 "train", "validation" 폴더로 나누어진다. 각각 "cats", "dogs" 폴더를 가지며, 그 내부에는 해당하는 이미지들이 들어있다. 2. Data Preprocessing 2.1 이미지 경로..
-
Kernel Method(Feature Mapping, Kernel, Kernel Trick)Data Science/데이터마이닝 2022. 11. 7. 22:06
1. Mapping Functoin을 통한 새로운 Feature Map 생성 기존에 주어진 \(Feature \ Space \ X\)가 문제를 Linear 한 방법으로 해결이 불가능할 경우, 새로운 \(Feature \ Space \ \phi(X)\)를 만들어 해결할 수 있으며, 이때 사용되는 \(\phi(X)\)를 Mapping Function이라고 한다. 이에 대한 예시는 아래와 같다. 그러나 어려움이 있으니. 1. 적절한 Mapping Function을 찾기 어려움 2. 기존 \( x_{i}^{T}x_{j}\) 비해서 \( \Phi(x_{i})^{T}\Phi(x_{j}) \)는 많은 연산량이 요구 (데이터의 컬럼 수가 증가하기 때문에 내적 연산량의 증가) 2. Mapping Function을 통한 ..