ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 데이터 형(data type) 종류
    Data Science/데이터마이닝 2022. 9. 29. 13:00
    반응형

    1. Categoric(범주형)

    1.1 Nominal Data(명목 데이터)

    categories하게 분류 가능한 데이터.

    각각이 고유하며 순서가 없다.

     

    사용가능 연산자 : ==(같다), !=(다르다)

    ex 동물 : 강아지, 고양이, 토끼

    ex 성별 : 남자, 여자

     

    강아지와 고양이는 다르다. => 강아지 != 고양이 (O)

    강아지와 강아지는 같다. => 강아지 == 강아지 (O)

    강아지 < 고양이 (X)

    강아지 + 강아지 (X)

    1.2 Ordinal Data(순서 데이터)

    categories간의 순서가 있는 데이터.

    각자 고유하나 순서가 있다.

     

    사용가능 연산자 : ==(같다), !=(다르다), <(작다), >(크다)

    ex 등수 : 1등, 2등, 3등

    ex 설문문답지 : 매우그렇다, 그렇다, 보통이다, 그렇지않다, 매우그렇지않다.

     

    1등 != 2등 (O)

    1등 > 2등 (O)

    1등 + 2등 = 3등 (X)  # 숫자가 들어가있어 헷갈릴 수 있지만 1등+2등은 3등이 아니다.

    2. Numeric(수치형)

    2.1 Interval Data(구간 데이터)

    데이터의 연속된 측정구간 사이의 간격이 동일한 데이터, 절대 영점이 없음.

    절대 영점이 없다는 의미는 해당 데이터에서 0이 아무것도 없다는 의미가 아닌, 약속된 중앙값이라는 의미.

     

    사용가능 연산자 : ==(같다), !=(다르다), <(작다), >(크다), +(더하기), -(빼기)

    ex 기온 : -5º, 0º, 5º

     

    현재 기온은 10도보다 4도 낮은 6도야 => 10º - 4º = 6º (O)

    10도보다 4도가 낮아 => 10º > 4º (O)

    이때, 2º * 4 = 8º 가 맞는데 곱하기는 안되나? 라는 의문이 생길 수 있지만 마이너스의 상황을 보면 성립하지 않음을 알수 있다.

    -5도 보다 두배 높은 온도는? => -5º * 2(X) # 성립할 수 없는 식이다.

    2.2 Ratio Data(비율 데이터)

    데이터의 연속된 측정구간 사이의 간격이 동일한 데이터, 절대 영점이 존재

    절대영점이 존재하기에 음수값이 존재할 수 없다.

    사직연산이 모두 적용 가능한 데이터 타입이다.

     

    사용가능 연산자 : ==(같다), !=(다르다), <(작다), >(크다), +(더하기), -(빼기), *(곱하기), /(나누기)

    ex 무게 : 0kg, 10kg, 100kg

    ex 나이 : 1살, 20살, 100살

     

    10살보다 20살이 인생의 두배를 살았지 => 10살 * 2 = 20살

    내 나이가 반백살이야 => 100살 / 2 = 50살

     

    3. Binary(이진형)

    모든 데이터는 위의 네가지 데이터 타입에 포함되지만,
    컴퓨터과학의 특성상 두개의 원소로 구성된 데이터는 Binary type이라고 부르기도 한다.

     

    3.1 0/1

    0과1로 구성된 데이터

    ex : 기계어

    2.2 symmetric binary(대칭 이진형)

    두개의 값이 서로 동등할 가치를 가지는 데이터

    ex : 성별

    2.3 Asymmetric binary(비대칭 이진형)

    두개의 값이 서로 다른 가치를 가지는 데이터

    ex : positive/negative, True/False

     

    반응형

    댓글

Designed by Tistory.