분석과제를 하면서 겪었던 포인트들

기타 2022. 7. 8. 22:11

저는 지금 대학/대학원에서 배워왔던 지식들을 기업에서 녹여가는 중이라고 생각합니다.

새로운 지식을 쌓아가는 것도 보람차겠지만,

저의 지식들을 기업의 상황에 맞게 녹여내는 것도 중요하다고 생각합니다.

오늘은 분석과제를 하면서 겪었던 포인트들에 대해서 간략히 말해보려합니다.

1. 과제에서 도메인 이해 및 데이터 분석이 80%를 차지한다.

석사시절에는 공공데이터 및 경진대회 등을 위해 가공된 데이터를 주로 사용해왔습니다.

이러한 환경에서 데이터가 발생한 도메인의 이해와 데이터 자체의 이해에 대해서는 별로 고려하지 않았던 것 같습니다.

기업에서 처음 과제를 맡았을 때, 이런저런 분석을 하여 관련자(현업 등)에게 발표 할 기회를 가지게 되었습니다.

발표를 함에 있어서 가장 놀라웠던 점은, 그분들이 제가 분석한 내용들을 이미 알고 있다는 것이었습니다.

더 나아가서, "이상치 중에 저부분은 000으로 발생한거 같고 다른 부분은 xxx건으로 발생했을 거다." 등
데이터에서는 보이지 않았던 수많은 도메인 지식들이 존재한다는 것이었습니다.

담당자와의 협업을 통해서 도메인적 지식들을 정의하고 피처에 녹여내는 부분에 많은 시간을 할애하였으며,

모델의 개발/실험/최적화 등은 비교적 적은 시간에 마칠 수 있었습니다.

(해당 과제는 모델의 배포 및 운영을 고려하지 않았었습니다.)

2. 휴먼에러

현업에서의 데이터는 가공된 데이터와는 다르게 도메인적 지식이 고려되어야합니다.

더욱이, 도메인에 따라서는 휴먼에러가 포함되기도 합니다.

사람이 제어하는 설비의 데이터라고 가정한다면, Y라는 결과를 도출해 낼 때 수행자의 의견이 들어가게 됩니다.

모두가 동일한 근거를 가지고 동일한 조작을 한다면 상관이 없겠지만,

경험에 기반한 각자의 판단을 하게 될 경우 데이터는 휴먼에러에 기반한 노이즈가 생기게 됩니다.

이러한 문제들로 인해서 데이터의 신뢰성을 검토해야 했었으며 표준을 세우고 추가적인 데이터 수집도 필요했었습니다.

3. 수행 환경에서의 제약

대학교에서의 과제는 환경적 제약이 없었습니다.

그러나 기업에서의 과제는 항상 환경적 제약이 사전에 제시되었습니다.

모델이 적용 될 환경에서의 컴퓨팅 성능 제약, 네트워크 제약, 예측 빈도 및 속도 제약 등 여러가지 사항이 제시되었습니다.

많은 제약에서 딥러닝 모델은 사용할 수 없는 상황이었고, 다수의 과제에서 머신러닝을 이용해 진행되었습니다.

간단히 세가지 포인트에 대해서 글을 작성하였습니다.

세가지의 공통점으로는 결국 도메인 환경의 이해가 필요하다는 것입니다.

저는 요즘 모니터 너머로만 데이터를 접하다가, 데이터가 생성되는 현장을 배워나가는 것이 정말 재미있습니다.

최근에는 기업에서 도메인 기반 인력들에게 AI교육을 제공해 "시티즌 데이터 사이언티스트"를 양성하는 움직임이 일어나고 있습니다.

반대로 저희 IT기반 인력들도 전공지식 외에도 도메인 지식을 갖춘다면 강력한 경쟁력을 가지지 않을까 생각해봅니다.

수업 요점정리 2주차(1) (0)	2022.09.06
제조업에서의 AI 혁신, 등대공장(Lighthouse Factory)이란? (0)	2022.08.06
삼성 모니터 받침대 분리 및 모니터 암 설치 후기 2 (0)	2021.11.04
Linux 계정 생성 및 관리자 권한(sudo) 부여 (0)	2021.09.13
[Mac] 개발자를 확인 할 수 없기 때문에 어플리케이션을 열 수 없습니다. (0)	2021.08.24

컴퓨터하는 상어 컴퓨터하는 상어