본문 바로가기

de

kakaoSpark 아키텍쳐 구상 이전에 생각했던 프로젝트의 개요를 한번 직접 그려보았다.  좀 더 구체화하는 작업을 진행하며, 각각의 서비스들이 무엇인지, 어떤 역할을 수행하는지 정리해보도록 하자.  Docker Compose KafkaSparkMySQLAirflowGrafana * Yahoo Finance는 주식 데이터를 제공해주는 api 이기에 자세히 설명하지는 않겠다. Docker Compose란? 도커 컨테이너 기반의 여러 서비스를 정의하고 관리하는데 쓰이는 도구이다! 얼핏 봐도 여러 컨테이너가 존재하는데, docker compose up 과 같은 명령어를 통해 한번에 실행시킬 수 있다!또한 컨테이너간 네트워크 연결 및 환경변수 설정에도 도움을 준다! (서비스명으로 네트워크 접근 가능) docker-compose.yml 파일 A.. 더보기
Spark를 활용한 Data Engineering 기본 용어 정리Data WareHouse의사결정에 도움을 주기위해 다양한 소스로부터 수집된 데이터를 공통의 형식으로 변환해서 관리하는 데이터베이스(보통 Structured data - BI, Reports...)  ex) Amazon Redshift, Google BigQuery, SnowflakeData Lake대량의 정형, 반정형, 비정형 데이터를 저장, 처리, 보호하기 위한 중앙 집중식 저장소(크기 제한 무시, raw data로 저장 가능) ex) Amazon S3, Azure Data Lake, Google Cloud Storage, HDFSData Lakehouse Data Warehouse와 Data Lake의 장점을 결합한 아키텍처  Apache Hadoop : 대규모 데이터 세트를 분산 저.. 더보기
Kafka, Spark, Airflow Let's go! 내가 해보고자 하는 것은  Yahoo Finance API --> Kafka --> Spark Streaming --> MySQL --> Airflow                                       |                                  Grafana (시각화) 위와 같은 아키텍쳐의 실시간 금융 데이터 분석 플랫폼을 만드는 것이다.  이런 구상을 하게 된 이유는 가상 투자의 경험이 있음주식 및 금융 관련 도메인 지식이 있음"카카오페이 증권" 에서 다루게 될 데이터와 유사점이 있을 가능성 높음이전에 Yahoo Finance API를 및 AI 모델을 통해 주가 예측을 구현한 경험이 있음현재 인턴십중인 회사에서 Kafka, Spark 사용 중 (질문 할 수 있다.... 더보기