[일잘러스킬]데이터검증허니팁3-피봇테이블로 크로스체크하기

May 28, 2020 · 3 mins read

안녕하세요~!
프로이직러 Mara입니다.

이전 글에서는 KPI를 통해서 데이터를 검증하는 방법에 대해서 말씀 드렸습니다. 이번 글에서는 피봇테이블로 데이터를 크로스체크하는 방법에 대해서 알아볼게요. Raw data 가공하기에서 분석하고 싶은 ‘피벗 테이블 행 데이터’가 없는 경우 해당 데이터를 Raw data 에 추가 해주거나 재정의 해주는 과정이 필요하다는 부분 기억하시죠? 이렇게 데이터를 편집자가 보고 싶은 속성을 추가한 경우에는 전체 합이 맞는지를 반드시 크로스 체크를 해줘야 하는데 이때 피봇테이블로 검증해주면 정확하고 효율적으로 크로스체크해줄 수 있습니다.

데이터 검증 🍯Tip3. 피봇테이블로 크로스체크하기

전체 데이터 합이 동일한지 크로스체크하기

예를 들어 볼게요. Raw data 의 ‘매체’ 정보를 예산에 따라 VVIP, VIP, Normal 이라는 ‘매체등급’으로 재지정 해줬습니다. 그렇다면 같은 Data source 를 가지고 데이터를 구했기 때문에 모든 데이터의 총합은 같아야 합니다. 총 예산이 1,000만원이었다면 ‘매체등급’ 데이터의 예산 합계도 1,000만원이 되어야 하는 것이죠. 피벗데이터를 생성해서 두 ‘피벗테이블 행’의 합계가 일치하는 지를 살펴보는 것으로 간단하게 크로스 체크 할 수 있습니다. 만약 값이 다르다면 ‘매체 등급’ 값이 빠져 있는 경우 일 것이고 해당 데이터를 찾아서 ‘매체 등급’값을 채워주면 되겠죠?

img

피봇테이블을 매체등급과 매체 2가지 기준으로 돌려보니 매체등급이 분류가 되지 않은 데이터가 있음을 확인 할 수 있네요.(노랑색 음영) 피벗테이블에서 값 부분(위의 예시에서 광고비, 수익)을 더블 클릭하면 해당 데이터 값만 바로 어떤 데이터가 매체등급이 빠져있는 지를 확인 할 수 있습니다. 추적해보니 12-21일에 E매체의 매체등급 분류가 빠져있네요. 매체 등급을 채워 주면 이제 완벽한 데이터를 볼 수 있겠죠?

img

수식 검증하기

또 ‘피벗 테이블 행 데이터’ 의 정의가 맞는지도 확인 해줘야 합니다. 예를 들어 A,B는 매체 등급 VVIP로 C와D는 VIP로 E는 Normal로 분류 하기로 정의했다면 이 정의에 맞게 ‘매체’정보를 분류 했는 지를 점검하는 거죠. 피벗테이블에서 매체등급과 매체를 한번에 피벗테이블 ‘행’에 놔주면 매체 등급별로 어떤 매체가 분류되었는 지 쉽게 검증할 수 있습니다.

img

워딩 통일성 검증하기

마지막으로 워딩의 통일성도 점검할 수 있습니다. 데이터를 여럿이서 작업하다 보면 워딩이 통일되지 않는 경우가 종종 있습니다. 예를 들어서 우리는는 “VVIP”라는 단어로 표현하기로 약속했는데 어떤 사람은 “VVIPP”로 기입하기도 하고요. 어떤 사람은 “VVVIP”라고 “V”를 3개 써오는 거죠. 이런 경우에는 피벗테이블을 생성했을 때 모두 다른 피벗테이블 행으로 분류되기 때문에 데이터를 제대로 읽을 수가 없게 됩니다.

img

1.이러한 워딩의 불일치를 방지하기 위해선 테이터를 취합하는 사람이 데이터 작업을 여러사람에게 분배하기 전에 수식이 걸려있는 파일을 Format을 만들어서 배포하는 것도 하나의 방법입니다. (Vlookup을 사용) 수식을 사용하면 수식에 있는 output값만 부여하게 될 테니까 작업자의 주관적인 워딩이 들어갈 일이 없습니다.

2.수식으로 표현하기 어렵고 데이터를 작업하는 작성자가 데이터를 살펴보고 주관적인 판단에 의해 데이터를 input해줘야 하는 경우라면 데이터 유효성 검사 메뉴를 사용해서 주어진 옵션중에서만 고르게 하는 방법도 있습니다. 이 경우에는 주어진 옵션에서만 고르게 되기 때문에 워딩이 불일치 하는 경우를 막을 수 있지만 선택하고자 하는 옵션이 목록에 포함되어 있지 않으면 고를 수가 없게 되는 단점도 존재합니다.

마지막으로 모든 것에 대해 의심하기

Mara는 데이터를 크로스 체크 할 때 ‘반드시 하나는 틀린게 있다’라는 생각으로 모든 데이터를 의심해가면서 체크합니다. 정말 성장률이 30%가 될 수 있나? ROI가 5가 나올수 있는건가? 라는 비판적인 시각으로 데이터를 보기 시작하면 단순히 숫자가 아니라 그 데이터가 가진 의미를 생각해보게 되고 데이터를 피상적으로 받아들이는 것이 아니라 좀 더 깊이 있게 이해할 수 있는 것 같아요.
이번 글에서는 데이터 검증 🍯Tip 시리즈 마지막 편인 피봇테이블로 데이터 검증하는 방법에 대해서 알아봤습니다. 다음 글에서는 드디어 본격적으로 데이터를 어떻게 분석하면 좋을 지 써볼게요.~!
오늘도 칼퇴하세요~! 🙋‍♀️


comments powered by Disqus