ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [빅데이터분석기사] 실기시험 모의고사 1
    자격증/빅데이터분석기사 2021. 11. 29. 23:06
    반응형

    이 포스팅은 빅데이터분석기사 실기시험을 가정하고 직접 만든 모의고사임을 밝힙니다.

    모의고사이지만 연습을 가정하고 만들었기 때문에 실제 시험보다 문항수가 많습니다.

    실제 실기시험에서는 단답식 이론문제도 나오지만 해당 포스팅에서는 다루지 않습니다.

     

    0. 데이터준비

    해당 코드는 시험과 유사하게 데이터를 준비하는 과정이며 시험과 전혀 관계없습니다.

    실제 시험에서는 train셋과 test셋이 바로 제공됩니다.

    아래 코드를 단순히 복사붙여넣기 하시기바랍니다.

    import seaborn as sns
    
    df = sns.load_dataset('penguins').sample(frac=1).reset_index(drop=True)
    df['bill_depth_mm'] = df['bill_depth_mm'].apply(lambda x: str(x)+'*' if x>19 else str(x))
    
    train = df[:300]
    test = df[300:].drop(['species'],axis=1)

     

    실제로 여러분이 받게되는 데이터는 정답(target)값이 포함된 train셋과 정답값이 없는 test셋을 받게 됩니다.

    해당 penguins 데이터셋의 컬럼 설명은 아래와 같습니다.

     

    컬럼이름 의미
    species 품종, 예측해야되는 정답값
    island 서식지
    bill_length_mm 부리 길이
    bill_depth_mm 부리 깊이
    flipper_length_mm 날개(지느러미) 길이
    body_mass_g 체질량
    sex 성별

     

    1. 모의고사

    [문제1] Train 데이터셋에서 bill_depth_mm컬럼의 중앙값을 구하시오. 

     

    [문제2] Train 데이터셋에서 flipper_length_mm컬럼의 결측치를 평균값으로 채운 후, 분산값과 표준편차값을 구하시오.

     

    [문제3] Train 데이터셋의 body_mass_g컬럼에서 5번째로 높은 값은 무엇입니까?

     

    [문제4] Train 데이터셋에서 Biscoe에 서식하고 있는 펭귄 중, 3번째로 체질량이 낮은 펭귄의 체질량 값을 구하시오.
    (서식지는 island컬럼 참조, 체질량은 body_mass_g컬럼 참조)

     

    [문제5] 주어진 Train 데이터셋을 사용하여 품종(species)을 예측하는 모델을 만들고 Test 데이터셋을 예측한 값을 제출하시오.

     

     

    답안 및 풀이예시는 수요일쯤(12/1)에 올리려합니다.

    반응형

    댓글

Designed by Tistory.