ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 스마트팩토리에서 수치 데이터 기반 예측 모델 프로젝트를 하면서 주의할 점들
    Data Science/데이터마이닝 2023. 4. 23. 20:46
    반응형

    이번 글에서는 회귀 예측 모델을 기반으로한 프로젝트들을 진행하면서,

    짚고 넘어가야하는 부분에 대해서 글을 작성해보려한다.

    해당 글에서 나오는 모든 내용은 경험 기반의 내용들로 빠진 부분이나 틀린 부분이 있다면 피드백 주시기바란다.

     

    1. 데이터 정합성 확인(실제로 내가 생각하는 데이터가 들어오고 있는가?)

    통상적으로 수치 데이터 과제를 진행한다면, 여러 DB에서 얻어진 데이터를 기반으로 진행하게 된다.

    이때, 사용하는 데이터들이 실제로 측정되고 있는 값인지, 도메인적/수치적으로 정합한 값인지 꼭 확인하는 과정이 필요하다.

    아래는 실제로 발생했던 케이스 들을 예시로 들어본다.

     

    1) 센싱된 데이터가 잘못된 값일 경우

    수치적으로는 이상이 없는 변수였으나, 도메인적 사실과 너무 다른 양상을 보이기에 확인해본 결과 실제 센서의 이상으로 잘못된 값이 기록되고 있었던 경우.

     

    2) 기록값과 실행값이 다를 경우

    데이터상으로는 특정 값이 100으로 기록되어 있었지만, 실제로 현장에서 적용된 값은 97이었다.

    사용하려던 컬럼이 현장의 판단이나 후처리 알고리즘으로 변경이 이루어지는 값이었으며, 실제 적용된 값이 기록되는 컬럼이 따로 있었던 경우.

     

    3) 실측값이 아닌 계산값일 경우

    설비들이 측정해주는 값들이 모두 실측값일 것 같지만, 특정 값들은 물리적 수식들을 기반으로 계산해주는 값이 있을 수 있다.

    이러한 경우 해당 값이 사용가능한지 도메인 전문가와 꼭 논의를 해보아야한다.

    (해당 계산값이, 정확하지 않아서 현장에서도 별로 사용하지 않는 경우도 있다.)

     

    2. 모델 활용 시점에서의 활용 가능한 변수 확인

    실제로 개발된 모델을 현장에서 활용할때 여러가지를 신경쓰게 되겠지만, 가장 중요한 부분은 모델 학습에 사용된 변수가 실제 서비스상황에서도 제공될 수 있어야한다.

    어떠한 제품의 제작 프로세스에서 기록된 여러 정보가 있다고 하였을 때,

    우리가 학습한 모델이 사용되는 시점이 프로세스의 끝부분이 아닌 중간부분일 경우 이후에 기록되는 컬럼들은 활용이 불가하다.

    단순해보이지만, 실제로 자주 놓치게 되는 부분이다.

     

    3. 기존의 문제해결 방법 확인

    프로젝트가 생성되었다는 것은 해결하고자하는 문제가 있다는 의미이다.

    이 문제가 왜 발생했고, 기존에는 어떻게 해결하고 있었고, 현장에서의 니즈는 무엇인지 꼭 확인해보아야한다.

    모델을 개발하는 것은 우리지만 실제 활용하는것은 현장이 될수가 있기에,

    열심히 개발해놓았는데 실제로 활용은 되지 않는 상황이 온다면 그동안의 노력은 물거품이 될 것이다.

     

    현장에서는 수많은 일이 진행되고 작업자들 또한 여러가지에 대해서 신경쓰고 있기 때문에,

    그들의 업무환경을 파악하고 우리가 개발할 모델이 그들의 작업방식에 맞게 제공되어야 한다.

    (물론, 그들의 작업방식이 잘못되었을 경우에는 협의를 통해서 바꿀 수 있도록 해야한다.)

     

    4. 마치며

    가끔식 어떠한 제품들이 엄청 성능이 좋다고 광고하지만 뜨지 못하고 사라지는 경우들을 종종 본다.

    우리가 진행하는 프로젝트의 결과물(예측 모델 등)도 결국은 현장에서의 상품이라고 생각한다.

    성능이 좋아도 그들이 쓰기에 불편하거나 맞지 않다면, 결국 사용되지 않는 그러한 제품이 될 것이라 생각한다.

    우리에게 개발능력 만큼이나 협업 능력이 중요해지고 있는 것 같다.

     

    반응형

    댓글

Designed by Tistory.