Spark를 활용한 Data Engineering
기본 용어 정리Data WareHouse의사결정에 도움을 주기위해 다양한 소스로부터 수집된 데이터를 공통의 형식으로 변환해서 관리하는 데이터베이스(보통 Structured data - BI, Reports...) ex) Amazon Redshift, Google BigQuery, SnowflakeData Lake대량의 정형, 반정형, 비정형 데이터를 저장, 처리, 보호하기 위한 중앙 집중식 저장소(크기 제한 무시, raw data로 저장 가능) ex) Amazon S3, Azure Data Lake, Google Cloud Storage, HDFSData Lakehouse Data Warehouse와 Data Lake의 장점을 결합한 아키텍처 Apache Hadoop : 대규모 데이터 세트를 분산 저..
더보기