카테고리 없음

파워쿼리로 데이터 취합 팁: 데이터 소스 기록

catalystmind 2025. 4. 25. 21:57
728x90
TL;DR

파워쿼리로 여러 데이터 파일을 취합할 때는 데이터를 처음 불러오는 단계에서 모든 열을 그대로 남기자. 
일부 열을 임의로 삭제하면 자동으로 데이터 출처를 반영해 주지 않는다. 
출처를 남겨야 한다면, 불필요한 열은 나중에 제거하는 것이 더 바람직하다.

데이터 분석 업무에서 여러 데이터 소스를 활용할 때, 데이터를 어디서 가져왔는지 기록하는 것은 매우 중요하다. 다양한 상황을 비교 분석하는 할때 어떤 상황에서 만들어진 데이터인지 출처를 남겨 두지 않는다면, 단지 나열만 되어 있는 데이터로 부터는 아무런 정보도 얻을 수 없기 때문이다.


파워쿼리의 장점

파워쿼리는 매우 강력한 데이터 처리 도구이다. R이나 파이썬과 같은 프로그래밍 언어를 배울 시간이 없고 코드를 작성하는 것이 어렵게 느껴진다면 GUI 기반의 파워쿼리가 훌륭한 대안이 될 수 있다. 다만, 주의해야 할 점은 우리의 목적은 마우스 클릭만으로 데이터를 정리하는 것이지 파워쿼리의 M함수를 사용하는 것이 아니라는 점.


파워쿼리에서 여러 파일을 취합할때 데이터 출처를 남기는 핵심 팁

파워쿼리를 사용하여 여러 파일을 취합할 때 가장 중요한 점은 처음 데이터를 불러올 때 모든 열을 그대로 유지하는 것이다. 이 단계에서 불필요해 보이는 열을 임의로 제거하게되면, 파워쿼리가 이후 데이터 출처를 자동으로 기록하거나 업데이트하지 못하는 문제가 발생한다. 물론 나중에 고급편집기에서 M함수를 수정해가면서 해결할 수도 있지만, 이는 우리가 파워쿼리의 본래 취지인 쉬운 GUI 활용에서 벗어나게 된다.

 

데이터 출처를 기록하는 가장 쉬운 방법은 데이터를 불러오는 단계에서, 데이터 소스(예: 파일 이름, 폴더 경로 등)가 포함된 열을 삭제하지 않고 그대로 유지하는 것이다. 이후 처리 과정에서 필요 없는 데이터는 마지막 단계에서 제거하는 것이 효율적이다.


 

단계별 진행 방법

1. 원본 데이터 불러오기

먼저 원본 데이터를 파워쿼리로 불러온다. 이 단계에서는 단순히 데이터를 있는 그대로 로드한다.

여기서 Binary만 남기고 모든 열을 제거하고 싶지만, 그대로 두기로 한다.

2. 파일을 병합하자

결합에서 파일 병합을 눌러서 이 상태로 그대로 파일을 병합한다.

3. 데이터 출처 확인

아래에서 보는 것과 같이 데이터 출처가 그대로 남아 있다. 이 출처가 없다면, 이 데이터가 테슬라 주가인지, 구글의 주가인지 구분할 방법이 없을 것이다.

 

아래는 데이터 출처가 남아 있지 않다. 고급편집기에 들어가서 나중에 추가를 할 수는 있지만, GUI환경으로 모든 것을 끝내기 위해 파워쿼리를 선택한 목적과는 많이 달라진다.

 


마치며

파워쿼리를 효과적으로 사용하기 위해선 데이터를 취합하는 단계에서 데이터 소스를 명확하게 기록하고 관리해야 한다. 많은 유튜브의 동영상에서 Binary만 남기고 다른 열들을 제거하는 것을 볼 수 있는데 이렇게 하게되면 출처를 자동으로 남겨주지 않는다는 것에 유의하자. 각자 상황에 맞게 프로그램을 사용하는 것이므로 모두가 따라할 필요는 없을 것이다.

728x90