Databricks Certified Professional Data Engineer Exam (Databricks-Certified-Professional-Data-Engineer Korean Version) - Databricks-Certified-Professional-Data-Engineer Korean Exam Practice Test
데이터 엔지니어가 이메일 주소가 포함된 열을 마스킹하고 있습니다. 목표는 모든 행에 대해 동일한 길이의 출력 문자열을 생성하되, 이메일 값에 따라 서로 다른 출력 문자열을 생성하는 것입니다.
이를 위해 어떤 SQL 함수를 사용해야 할까요?
이를 위해 어떤 SQL 함수를 사용해야 할까요?
Correct Answer: A
Vote an answer
Explanation: Only visible for Fast2test members. You can sign-up / login (it's free).
데이터 엔지니어링 팀은 Databricks Lakehouse Monitoring을 사용하여 Delta 테이블의 핵심 열에 대한 percent_null 지표를 추적합니다.
프로필 메트릭 테이블(prod_catalog.prod_schema.customer_data_profile_metrics)에는 시간별 percent_null 값이 저장됩니다.
팀의 목표는 다음과 같습니다.
* percent_null의 일일 평균값이 3일 연속 5%를 초과할 경우 알림을 발생시킵니다.
* 문제가 지속되는 동안 알림이 스팸처럼 전송되지 않도록 하십시오.
옵션:
프로필 메트릭 테이블(prod_catalog.prod_schema.customer_data_profile_metrics)에는 시간별 percent_null 값이 저장됩니다.
팀의 목표는 다음과 같습니다.
* percent_null의 일일 평균값이 3일 연속 5%를 초과할 경우 알림을 발생시킵니다.
* 문제가 지속되는 동안 알림이 스팸처럼 전송되지 않도록 하십시오.
옵션:
Correct Answer: B
Vote an answer
Explanation: Only visible for Fast2test members. You can sign-up / login (it's free).
3개의 실행기 노드로 구성된 특정 클러스터의 Ganglia 메트릭을 평가할 때, 어떤 지표가 VM 리소스의 적절한 활용을 나타낼까요?
Correct Answer: E
Vote an answer
DLT 파이프라인에는 다음과 같은 스트리밍 테이블이 포함됩니다.
Raw_lot은 심박수 추적 장치에서 원시 장치 측정 데이터를 수집합니다.
Bgm_stats는 raw_lot의 BPM 측정값을 기반으로 사용자 통계를 점진적으로 계산합니다.
데이터 엔지니어는 파이프라인 업데이트 실행 시 하위 테이블을 다시 계산하는 동안 raw_iot 테이블에서 수동으로 삭제되거나 업데이트된 레코드를 유지할 수 있도록 이 파이프라인을 어떻게 구성해야 할까요?
Raw_lot은 심박수 추적 장치에서 원시 장치 측정 데이터를 수집합니다.
Bgm_stats는 raw_lot의 BPM 측정값을 기반으로 사용자 통계를 점진적으로 계산합니다.
데이터 엔지니어는 파이프라인 업데이트 실행 시 하위 테이블을 다시 계산하는 동안 raw_iot 테이블에서 수동으로 삭제되거나 업데이트된 레코드를 유지할 수 있도록 이 파이프라인을 어떻게 구성해야 할까요?
Correct Answer: C
Vote an answer
Explanation: Only visible for Fast2test members. You can sign-up / login (it's free).
데이터 과학 팀은 MLflow를 사용하여 프로덕션 모델을 생성하고 로그에 기록했습니다. 다음 코드는 프로덕션 모델을 올바르게 가져와 적용하여 "customer_id LONG, predictions DOUBLE, date DATE" 스키마를 가진 preds라는 새 DataFrame으로 예측 결과를 출력합니다.

데이터 과학 팀은 예측 결과를 Delta Lake 테이블에 저장하고, 시간 경과에 따른 모든 예측 결과를 비교할 수 있기를 원합니다. 고객 이탈 예측은 하루에 최대 한 번만 수행됩니다.
어떤 코드 블록이 잠재적인 컴퓨팅 비용을 최소화하면서 이 작업을 수행합니까?

데이터 과학 팀은 예측 결과를 Delta Lake 테이블에 저장하고, 시간 경과에 따른 모든 예측 결과를 비교할 수 있기를 원합니다. 고객 이탈 예측은 하루에 최대 한 번만 수행됩니다.
어떤 코드 블록이 잠재적인 컴퓨팅 비용을 최소화하면서 이 작업을 수행합니까?
Correct Answer: B
Vote an answer
실수로 운영 환경에 데이터를 커밋하는 것을 방지하기 위해, 선임 데이터 엔지니어는 모든 개발 작업에서 Delta Lake 테이블의 복제본을 참조하도록 하는 정책을 수립했습니다. 심층 복제와 얕은 복제 방식을 모두 테스트한 결과, 얕은 복제 방식을 사용하여 개발 테이블을 생성하기로 결정했습니다.
테이블 생성 후 몇 주가 지나자, 1형 SCD(Slowly Changing Dimension)로 구현된 여러 테이블의 복제본이 작동을 멈췄습니다. 원본 테이블의 트랜잭션 로그를 확인해 보니 전날 vacuum 작업이 실행된 것으로 나타났습니다.
복제된 테이블이 더 이상 작동하지 않는 이유는 무엇입니까?
테이블 생성 후 몇 주가 지나자, 1형 SCD(Slowly Changing Dimension)로 구현된 여러 테이블의 복제본이 작동을 멈췄습니다. 원본 테이블의 트랜잭션 로그를 확인해 보니 전날 vacuum 작업이 실행된 것으로 나타났습니다.
복제된 테이블이 더 이상 작동하지 않는 이유는 무엇입니까?
Correct Answer: A
Vote an answer
Explanation: Only visible for Fast2test members. You can sign-up / login (it's free).
데이터 과학 팀은 MLFlow를 사용하여 프로덕션 환경을 구축하고 로그를 남겼습니다. 이 모델은 열 이름 목록을 입력받아 DOUBLE 형식의 새 열을 반환합니다.
다음 코드는 프로덕션 모델을 올바르게 가져오고, customer_id 키 열을 포함하는 고객 테이블을 데이터프레임으로 로드하고, 모델에 필요한 기능 열을 정의합니다.

어떤 코드 블록이 ' ' customer_id LONG, predictions DOUBLE ' ' 스키마를 가진 DataFrame을 출력합니까?
다음 코드는 프로덕션 모델을 올바르게 가져오고, customer_id 키 열을 포함하는 고객 테이블을 데이터프레임으로 로드하고, 모델에 필요한 기능 열을 정의합니다.

어떤 코드 블록이 ' ' customer_id LONG, predictions DOUBLE ' ' 스키마를 가진 DataFrame을 출력합니까?
Correct Answer: D
Vote an answer
Explanation: Only visible for Fast2test members. You can sign-up / login (it's free).
데이터 엔지니어는 고객 거래 데이터를 처리하는 프로덕션 Lakeflow 선언적 파이프라인을 관리합니다. 이 파이프라인에는 transaction_amount > 0 및 customer_id IS NOT NULL과 같은 여러 데이터 품질 요구 사항이 포함되어 있습니다. 이러한 요구 사항은 SQL의 EXPECT 절을 사용하여 정의됩니다.
엔지니어는 최신 파이프라인 업데이트 중에 각 기대치를 충족하거나 충족하지 못한 레코드 수를 분석하여 파이프라인의 데이터 품질을 모니터링하는 것을 목표로 합니다. Lakeflow 선언적 파이프라인의 이벤트 로그는 event_log_table이라는 Delta 테이블에 저장됩니다.
최근 파이프라인 업데이트에 대해 각 기대치의 이름, 관련 데이터 세트, 기대치를 통과한 레코드 수, 기대치를 통과하지 못한 레코드 수와 같은 정보를 추출하는 데 적합한 프로그래밍 방식을 결정하십시오.
Lakeflow 선언적 파이프라인 이벤트 로그에서 원하는 데이터 품질 지표를 가져오는 메서드는 무엇입니까?
엔지니어는 최신 파이프라인 업데이트 중에 각 기대치를 충족하거나 충족하지 못한 레코드 수를 분석하여 파이프라인의 데이터 품질을 모니터링하는 것을 목표로 합니다. Lakeflow 선언적 파이프라인의 이벤트 로그는 event_log_table이라는 Delta 테이블에 저장됩니다.
최근 파이프라인 업데이트에 대해 각 기대치의 이름, 관련 데이터 세트, 기대치를 통과한 레코드 수, 기대치를 통과하지 못한 레코드 수와 같은 정보를 추출하는 데 적합한 프로그래밍 방식을 결정하십시오.
Lakeflow 선언적 파이프라인 이벤트 로그에서 원하는 데이터 품질 지표를 가져오는 메서드는 무엇입니까?
Correct Answer: A
Vote an answer
Explanation: Only visible for Fast2test members. You can sign-up / login (it's free).
신입 데이터 엔지니어가 silver_device_recordings라는 Lakehouse 테이블에 대한 로직을 구현하는 작업을 진행하고 있습니다.
원본 데이터는 고도로 중첩된 JSON 구조에 100개의 고유 필드를 포함하고 있습니다.
silver_device_recordings 테이블은 여러 프로덕션 모니터링 대시보드와 프로덕션 모델을 구동하는 데 사용될 예정입니다. 현재 100개 필드 중 45개가 이러한 애플리케이션 중 하나 이상에서 사용되고 있습니다.
데이터 엔지니어는 데이터의 고도로 중첩된 구조와 수많은 필드를 고려하여 스키마 선언을 처리하는 최적의 접근 방식을 찾으려고 노력하고 있습니다.
다음 중 Delta Lake와 Databricks에 대한 정보를 정확하게 제시하여 그들의 의사 결정 과정에 영향을 미칠 수 있는 것은 무엇입니까?
원본 데이터는 고도로 중첩된 JSON 구조에 100개의 고유 필드를 포함하고 있습니다.
silver_device_recordings 테이블은 여러 프로덕션 모니터링 대시보드와 프로덕션 모델을 구동하는 데 사용될 예정입니다. 현재 100개 필드 중 45개가 이러한 애플리케이션 중 하나 이상에서 사용되고 있습니다.
데이터 엔지니어는 데이터의 고도로 중첩된 구조와 수많은 필드를 고려하여 스키마 선언을 처리하는 최적의 접근 방식을 찾으려고 노력하고 있습니다.
다음 중 Delta Lake와 Databricks에 대한 정보를 정확하게 제시하여 그들의 의사 결정 과정에 영향을 미칠 수 있는 것은 무엇입니까?
Correct Answer: A
Vote an answer
Explanation: Only visible for Fast2test members. You can sign-up / login (it's free).
Databricks Auto Loader의 기본 실행 모드를 설명하는 문장은 무엇입니까?
Correct Answer: C
Vote an answer
Explanation: Only visible for Fast2test members. You can sign-up / login (it's free).
플랫폼 팀 리더는 여러 사업 부문에 걸쳐 SQL 웨어하우스 사용 내역을 자동화하는 책임을 맡고 있습니다.
그들은 개별 사용자 수준에서 창고 사용량을 파악하고 여러 부서의 비즈니스 리더가 포함된 경영진 팀과 일일 사용량 보고서를 공유해야 합니다.
플랫폼 책임자는 어떻게 매일 공유할 수 있는 자동화된 보고서를 생성해야 할까요?
그들은 개별 사용자 수준에서 창고 사용량을 파악하고 여러 부서의 비즈니스 리더가 포함된 경영진 팀과 일일 사용량 보고서를 공유해야 합니다.
플랫폼 책임자는 어떻게 매일 공유할 수 있는 자동화된 보고서를 생성해야 할까요?
Correct Answer: C
Vote an answer
Explanation: Only visible for Fast2test members. You can sign-up / login (it's free).
데이터 엔지니어링 팀의 한 구성원이 더 큰 데이터 파이프라인의 일부로 실행되도록 예약하려는 간단한 노트북 파일을 제출했습니다. 아래 제공된 명령어를 제시된 대로 실행하면 논리적으로 올바른 결과가 생성된다고 가정합니다.

노트북을 작업으로 예약하기 전에 어떤 명령어를 제거해야 할까요?

노트북을 작업으로 예약하기 전에 어떤 명령어를 제거해야 할까요?
Correct Answer: E
Vote an answer
Explanation: Only visible for Fast2test members. You can sign-up / login (it's free).