컴퓨터하는 상어
-
MLOps는 무엇이고 왜 필요한가?MLOps 2022. 8. 22. 23:46
오늘은 데이터이쿠에서 작성한 "Introducing MLOps - MLOps 도입 가이드" 책을 기반으로 MLOps는 무엇이고 왜 필요한지 알아보겠다. 0. Introducing MLOps - MLOps 도입 가이드 해당 책은 Dataiku(데이터이쿠)가 작성한 책이다. Dataiku는 사람이 아닌 기업으로 MLOps 플랫폼인 Dataiku Data Science Studio를 서비스하고 있다. 해당 책에서는 MLOps를 11개의 챕터를 통해서 소개하며, 각 챕터는 주제와 연관된 부서에서 근무하는 Dataiku 직원들이 작성하였다. 1. MLOps 개념과 필요성 MLOps의 핵심은 머신러닝 모델 생애주기 관리의 표준화 및 간호화다. 그렇다면 왜 MLOps가 필요할까?(왜 머신러닝 모델 생애주기 관리의 표..
-
SOM Clustering(Self-Organizing Map, 자기조직화지도)Data Science 2022. 8. 21. 20:16
1. SOM Clustering SOM Clustering(이하 SOM)은 map의 topology 구조를 유지하면서 고차원의 데이터를 저차원으로 변경하는 비지도 학습 방법이다. 구조는 입력 레이어와 출력 레이어 두개의 층으로 구성되어 있다. 입력된 패턴에 가장 유사한 출력 레이어의 neuron이 winner neuron이 되고, 이를 중심으로 유사한 입력패턴의 집합이 이루어진다. 이를 통해서 유사한 패턴은 동일한 출력(같은 군집)을 가지게 된다. SOM의 가장 큰 특징이자 대표적인 군집화 기법 K-Means와의 차이점으로는 군집화의 개수를 설정하지 않아도 된다는 점이다. 그 외에도, 시각적 표현이 뛰어나며 입력변수의 위치 관계를 보존한다는 특징이 있다. SOM에 대해서 고려하게 된 계기는 아래와 같다...
-
제조업에서의 AI 혁신, 등대공장(Lighthouse Factory)이란?기타 2022. 8. 6. 17:36
1. 등대공장(Lighthouse Factory) 스마트팩토리 분야에서 요즘 핫한 키워드가 있다. 바로 등대공장. 직역을 하면 뭔가 딱히 연상되는 이미지가 없는 단어이다. 등대를 만드는 공장인가? 그러나 이는 WEF(World Economic Forum, 세계경제포럼)의 Global Lighthouse Network에 가입된 제조업들을 의미한다. WEF의 말을 빌리자면, 대다수의 제조업들은 4차 산업혁명 기술의 적용에 뒤쳐져 있다. 약 70%의 제조기업이 시범적용 단계에서 나아가지 못하는 반면, 소수의 선도 제조기업들만이 4차 산업혁명을 적용하여 새로운 가치와 고객경험을 생성한다. 그렇기에 Shaping the Future of Advanced Manufacturing and Value Chains 프로..
-
mathplotlib.pipy 자주쓰는 파라미터 세팅Data Science/시각화 2022. 7. 27. 21:11
파이썬에서 mathplotlib.pipy 라이브러리를 사용하며 자주 사용하게 되는 파라미터들을 정리한다. 흔히 우리가 약어인 plt로 사용하기도 한다. 1. Base code import numpy as np import pandas as pd import random import matplotlib.pyplot as plt import seaborn as sns df = pd.DataFrame({ 'col1' : [random.randrange(-10,10) for i in range(100)], 'col2' : [random.randrange(-10,10) for i in range(100)] }) sns.scatterplot(data = df, x = 'col1', y = 'col2') 2. mat..
-
보스턴 주택 가격 데이터셋 (Boston house prices)Data Science/데이터셋 2022. 7. 17. 22:14
0. 데이터 설명 미국 보스턴 지역의 타운 별 주택 가격 영향 요소를 정리한 데이터. 컬럼 설명 CRIM 타운 별 1인당 범죄율 ZN 25,000 피트 이상 주거용 토지 비율 INDUS 비소매 상업지역 점유 토지 비율 CHAS 강 인접 유무(1 = 강과 인접, 0 = 강과 인접하지 않음) NOX 산화질소 농도 RM 가구당 평균 방 수 AGE 1940년 이전 건축 주택 비율 DIS 5개 보스턴 직업센터 접근성 지수 RAD 방사형 도로 접근성 지수 TAX $10,000 당 재산세율 PTRATIO 도시별 학생/교사 비율 B 1000(Bk-0.63)^2 (Bk : 도시별 흑인 비율) LSTAT 모집단의 하위계층 비율(%) PRICES(Target) 본인 소유 주택가격(중앙값, 단위 : $1,000) 1. 파이썬..
-
[XAI/Python] SHAP 파이썬 라이브러리 사용 코드 예시(SHapley Additive exPlanations)Data Science/데이터마이닝 2022. 7. 15. 21:18
0. SHAP란 SHAP는 ML 모델의 예측 결과를 설명하기 위한 게임이론적 접근방식이다. XAI가 주목받는 요즘, 쉽게 접근 할 수 있으며 결과를 그래프로 볼 수 있는 SHAP에 대해서 포스팅한다. 1. SHAP 설치 # 주피터 노트북 안에서 !pip install shap # 터미널에서 pip install shap 2. 사용 데이터 및 모델 해당 포스팅에서는 회귀예측을 하기 위한 보스턴 주택 가격 데이터를 사용한다. 예측모델로는 XGBoost 회귀모델을 사용한다. 해당 데이터의 구성은 아래와 같다. 컬럼 설명 CRIM 타운 별 1인당 범죄율 ZN 25,000 피트 이상 주거용 토지 비율 INDUS 비소매 상업지역 점유 토지 비율 CHAS 강 인접 유무(1 = 강과 인접, 0 = 강과 인접하지 않음)..
-
분석과제를 하면서 겪었던 포인트들기타 2022. 7. 8. 22:11
저는 지금 대학/대학원에서 배워왔던 지식들을 기업에서 녹여가는 중이라고 생각합니다. 새로운 지식을 쌓아가는 것도 보람차겠지만, 저의 지식들을 기업의 상황에 맞게 녹여내는 것도 중요하다고 생각합니다. 오늘은 분석과제를 하면서 겪었던 포인트들에 대해서 간략히 말해보려합니다. 1. 과제에서 도메인 이해 및 데이터 분석이 80%를 차지한다. 석사시절에는 공공데이터 및 경진대회 등을 위해 가공된 데이터를 주로 사용해왔습니다. 이러한 환경에서 데이터가 발생한 도메인의 이해와 데이터 자체의 이해에 대해서는 별로 고려하지 않았던 것 같습니다. 기업에서 처음 과제를 맡았을 때, 이런저런 분석을 하여 관련자(현업 등)에게 발표 할 기회를 가지게 되었습니다. 발표를 함에 있어서 가장 놀라웠던 점은, 그분들이 제가 분석한 내..
-
Ubuntu 22.04 LTS iso 파일 다운로드(우분투 22.04 LST)환경&시스템 구축/VMware 2022. 6. 24. 18:40
흔히 가상머신에 Ubuntu를 설치하기 위해서 사용되는 Ubuntu 22.04 LTS iso 파일을 받는 링크는 아래와 같습니다. (클릭하면 다운로드가 진행됩니다.) https://releases.ubuntu.com/22.04/ubuntu-22.04-desktop-amd64.iso 직접 홈페이지에서 받고 싶다면 아래의 링크로 들어가면 됩니다. https://releases.ubuntu.com/22.04/ Ubuntu 22.04 LTS (Jammy Jellyfish) Select an image Ubuntu is distributed on two types of images described below. Desktop image The desktop image allows you to try Ubuntu ..