Data Science/데이터마이닝
-
편상관계수 정의 및 파이썬 코드 구현(Partial Correlation Coefficient)Data Science/데이터마이닝 2023. 5. 7. 22:31
데이터 분석에 있어서 가장 많이 활용되는 기법 중 하나로 상관관계 분석이 있다. 그러나 실제 현업의 데이터에서는 여러 독립변수들이 직/간접적으로 영향을 미치며 이에 대한 정확한 상관관계/인과관계의 분석이 어렵다. 그렇기에 단순히 상관관계만을 보고 분석을 하는것은 한계가 있으며, 같이 활용 될 수 있는 편상관계수를 설명하고, 파이썬 코드로 구현하는 예시를 작성해본다. 1. 상관계수의 정의 및 한계(Correlation Coefficient) 상관계수는 두 변수간의 상호관계정도를 나타내는 통계적 수치이다. -1 ~ +1 사이의 값을 가지며, -1일때 완벽한 음의 상관관계 그리고 +1일때 완벽한 양의 상관관계를 나타낸다. 주의할 점은 상관계수가 0일 경우 상관관계가 0인 것이 아닌, 선형의 상관관계가 보이지 ..
-
스마트팩토리에서 수치 데이터 기반 예측 모델 프로젝트를 하면서 주의할 점들Data Science/데이터마이닝 2023. 4. 23. 20:46
이번 글에서는 회귀 예측 모델을 기반으로한 프로젝트들을 진행하면서, 짚고 넘어가야하는 부분에 대해서 글을 작성해보려한다. 해당 글에서 나오는 모든 내용은 경험 기반의 내용들로 빠진 부분이나 틀린 부분이 있다면 피드백 주시기바란다. 1. 데이터 정합성 확인(실제로 내가 생각하는 데이터가 들어오고 있는가?) 통상적으로 수치 데이터 과제를 진행한다면, 여러 DB에서 얻어진 데이터를 기반으로 진행하게 된다. 이때, 사용하는 데이터들이 실제로 측정되고 있는 값인지, 도메인적/수치적으로 정합한 값인지 꼭 확인하는 과정이 필요하다. 아래는 실제로 발생했던 케이스 들을 예시로 들어본다. 1) 센싱된 데이터가 잘못된 값일 경우 수치적으로는 이상이 없는 변수였으나, 도메인적 사실과 너무 다른 양상을 보이기에 확인해본 결과..
-
Uncertainty Quantification(불확실성의 정량화)Data Science/데이터마이닝 2022. 11. 26. 11:28
아래그림은 x축이 독립변수, y축이 종속변수이며 5개의 학습 데이터(초록색 x)가 주어진 상태이다. 파란색 line이 데이터를 생성하는 분포이며, 주황색 line이 생성된 regression 모델이다. 주황색으로 칠해진 배경은 불확실성(uncertainty)를 의미한다. 실제로 값이 관측된 구간에서는 불확실성이 0에 가깝지만, 관측값 사이의 거리가 멀고 값의 차이가 높을 수록 불확실성은 커지는 것을 확인할 수 있다. 이진 분류 문제에서의 불확실성은 아래와 같이 표현될 수 있다. 이러한 불확실성은 데이터의 증가를 통해서 해결할 수 있기 때문에 epistemic uncertainty라고 한다. 그렇다면 반대로 데이터 자체에서 불확실성을 가지고 있는 Aleatoric uncertainty도 존재한다. 대표적으..
-
머신러닝/딥러닝 하이퍼파라미터 최적화(ML/DL Hyperparameter Optimization)Data Science/데이터마이닝 2022. 11. 26. 10:53
1. 머신러닝/딥러닝 하이퍼파라미터 최적화란? 머신러닝 및 딥러닝 모델은 데이터로부터 모델 파라미터(가중치, weight, \(\theta\)를 스스로 학습해 나아간다. 그렇다면 하이퍼파라미터라는 것은 무엇일까? 이는 모델을 설계하면서 사람이 직접 정해주어야하는 값을 의미한다. Tree 기법에서의 최대깊이(max depth) 또는 학습률(learning rate), k-means 기법에서의 군집개수(k) 등이 이에 해당한다. 모델에서 최적의 하이퍼파라미터 세팅을 찾기 위해서는 여러번의 설정 변경과 실험을 통해서 알아보는 수밖에 없다. 이때 최적의 하이퍼파라미터 세팅을 찾기위한 과정을 하이퍼파라미터 최적화라고 한다. 아래에서는 ML/DL에서의 하이퍼파라미터 최적화 방법들에 대해서 알아본다. 2. Grid ..
-
Explainable AI & Interpretable MLData Science/데이터마이닝 2022. 11. 23. 23:50
1. 개요 Interpretability : 모델의 예측 이유(원인)에 대해서 사람이 이해 가능한 단계 Explainability : 각 Feature가 하나의 예측에 대해서 어떠한 기여를 하였는지 확인 가능한 단계 DL 모델이 높은 정확도는 가져올 수 있지만 ML 모델에 비해서 해석력이 낮다. 2. Interpretable ML Generalized Linear Models Generalized Additive Models Naive Bayes Classifier K-nearest Neighbor Methods Explainable Boosting Machines(EBMs) 2.1 선형회귀에서의 해석력(Linear Regression Interpretation) 2.1.1데이터 타입에 따른 해석방법 수..
-
머신러닝에서의 이상 탐지 종류(Anormaly Detection)Data Science/데이터마이닝 2022. 11. 21. 22:39
1. 이상탐지란? 이상탐지는 정상(Normal)/비정상(Anormal)을 구분하는 문제이다. 대표적인 방법으로는 머신러닝에서 많이 해오던 이진 분류(Binary Classification)가 있다. 그러나 일반적인 분류문제로 풀기에 이상탐지 분야는 Class의 불균형(Class Unbalanced)이 너무 심각하다. 대부분의 이상탐지 문제는 아래 두가지 케이스에 해당된다. Case1 : 정상 데이터만 존재하는 경우 Case2 : 대다수의 정상 데이터와 소수의 비정상 데이타가 있는 경우 빅데이터분석기사나 여타 데이터마이닝 분야에서 Class의 불균형 문제의 해답으로 Over/Under Sampling을 소개하고 있지만 실제로는 효과를 거두기 어렵다. 1.1 Over Sampling의 한계 Over samp..
-
최적화 함수 종류 및 개념(Optimization Function)Data Science/데이터마이닝 2022. 11. 11. 23:48
1. Gradient Descent(GD, 경사하강법) 함수의 기울기를 구하고 기울기의 반대 방향으로 이동시켜 최소값에 이르를때까지 반복하는 기법. ML모델의 최적화시에 전체 데이터를 모두 사용하기에 Batch Gradient Descent라고 부르기도 한다. 모든 데이터에 대한 loss를 구해야하기 때문에 많은 연산량을 요구한다. $$ w_{i+1} = w_{i}-\gamma _{i}\triangledown f(w_{i}) $$ \( \gamma \) : 이동 거리를 조절하는 매개변수, 흔히 Learning rate(학습률)로써 ML분야에서 쓰인다. \( \triangledown \) : 미분연산자를 의미한다. (nabla, 나블라) 2. Gradient Descent 종류에서 주의해야할 점 2.1 적..
-
Kernel Method(Feature Mapping, Kernel, Kernel Trick)Data Science/데이터마이닝 2022. 11. 7. 22:06
1. Mapping Functoin을 통한 새로운 Feature Map 생성 기존에 주어진 \(Feature \ Space \ X\)가 문제를 Linear 한 방법으로 해결이 불가능할 경우, 새로운 \(Feature \ Space \ \phi(X)\)를 만들어 해결할 수 있으며, 이때 사용되는 \(\phi(X)\)를 Mapping Function이라고 한다. 이에 대한 예시는 아래와 같다. 그러나 어려움이 있으니. 1. 적절한 Mapping Function을 찾기 어려움 2. 기존 \( x_{i}^{T}x_{j}\) 비해서 \( \Phi(x_{i})^{T}\Phi(x_{j}) \)는 많은 연산량이 요구 (데이터의 컬럼 수가 증가하기 때문에 내적 연산량의 증가) 2. Mapping Function을 통한 ..