본문 바로가기

전체 글

통신사 고객 이탈 예측 모델 개발 A통신 기업 마켓팅 담당자는 이탈 가능성이 높은 고객을 조기에 식별하고 맞춤형 대응 전략을 수립하는 프로젝트를 진행한다. 이에 마켓팅 담당자는 데이터 분석팀 일원인 당신에게 '데이터 기반 고객 이탈 예측 모델 개발'을 의뢰하였다. 데이터 설명담당자로부터 전달 받은 고객 데이터는 과거 고객의 정보와 이탈 여부가 표기된 데이터로, 세 종류의 정형 데이터로 나눠져 있다.1. metadata.csv: 고객 아이디 (Customer ID), 이탈 여부, 계약 조건이 표기된 메타 데이터2. customer_data.csv: 고객 아이디 (Customer ID)와 해당 고객 정보가 기입된 고객 정보 데이터3. internet_data.csv: 고객 아이디 (Customer ID)와 해당 고객이 가입한 인터넷 서비스가.. 더보기
이진 분류 모델 - 전기차 배터리 제조 공정의 불량품 분류 상황 전기차 배터리 공정의 효율성을 높이고 비용을 절감하기 위한 수율 개선 대책을 마련하고자 한다.이를 위해 제품의 양품과 불량품을 조기에 정확히 구분할 수 있는 모델의 개발을 Data Science 부서에 요청했다.당신은 이를 위한 이진 분류 모델을 개발해야 한다. 데이터는 현장 담당자로부터 전달 받았으며, 제조 설비 내 센서를 통해 수집되었다.301개의 칼럼, 총 33727개의 샘플로 구성되어 있다. 칼럼 구성 : 센서 데이터 s1 ~ s300 , Pass_Fail 이상 샘플 테스트 통과 여부 데이터 로드 및 전처리 보안? 등의 이유로 데이터를 불러오는 부분은 생략하겠다.. print("Number of Pass: {}, Number of Fail: {}".format(len(dataset[da.. 더보기
[하둡 완벽 가이드] ~Chapter 5 스터디 4장 쿠버네티스 자원관리자와 yarn 충돌 DRF 끄고 씀 애플리케이션 마스터 === 자바 트윌 ? 스파크 왜 수명 두번째 유형? 5장checksum: 데이터가 안 깨지고 잘 왔는지 검증. 체크섬 단위 1000으로 잡으면 실 데이터는 990만 넣고 10정도는 앞의 값을 해시 암호화해서 체크섬 용도로 사용 -- 검증 file.byte.per_checksum 기본값 512byte 왜? 디스크의 한 블록 크기와 동일 .512단위로 체크섬 진행시 디스크에 관련해서는 깨지지 않음이 보장이 된다. 8kb 쓰기에 대해 앞뒤 64bit만 체크섬? -> 보장 못함. 비트로트 실제로 자주 발생 gz 부분 압축 해제 불가 -> hadoop 에 적합하지 않음 실제로 snappy 많이 사용.(속도 빠름) 실제로 1T.. 더보기
[하둡 완벽 가이드] Chapter 5. 하둡 I/O Hadoop이 I/O 작업을 위해 어떤 노력들을 하는지 알아보도록 하자. 데이터 무결성 : 어떠한 데이터도 잃어버리거나 손상되지 않기를 원해 !압축 : 파일 저장 공간을 줄이고, 데이터 전송을 고속화 시킬래!직렬화 : 네트워크 전송시 구조화된 객체를 바이트 스트림으로 바꿔야 하는데, 이걸 쉽고 빠르게 할래!파일 기반 데이터 구조 : 애플리케이션에서 데이터를 얻을 때 더 효율적인 구조는 없을까!하둡은 위와 같이 4가지 방면에서 I/O작업을 위한 고민들이 이루어졌는데, 하나씩 알아보도록 하자. 데이터 무결성 보통 손상된 데이터를 검출하는 방법엔 무엇이 있을까? 데이터가 시스템에 처음 유입되었을 때와 통신 채널로 데이터가 전송될때마다 체크섬을 계산하는 방법이 있다. (체크섬이 손상될 수도 있지만, 그럴 가.. 더보기
[하둡 완벽 가이드] Study 실습 보호되어 있는 글입니다. 더보기
[하둡 완벽 가이드] Chapter 9. 맵리듀스 기능 이번 Chapter는 아래와 같은 맵리듀스 고급 기능에 대해 소개하는 절이다. 카운터정렬조인사이드 데이터 분배맵리듀스 라이브러리 클래스그렇다면.... 지금까지 우리가 알아본 맵리듀스의 기본 기능에는 무엇이 있으며,,,왜 이것만으로는 부족하고 고급 기능이 필요한지 고민해보자 ... !!! 맵리듀스 기본 기능HDFS에 데이터를 블록 단위로 나눠서 여러 노드에 저장. (data locality)Map : key-value형태로 데이터를 변환 후 필터링/매핑/전처리 수행Shuffle & Sort : 동일한 키를 가진 데이터끼리 한 Reduce 노드로 전달 (키 기준 오름차순 정렬)Reduce : 동일 키를 가진 값들을 집계/합산/평균/통계 계산최종 결과를 HDFS에 저장-----------------------.. 더보기
[하둡 완벽 가이드] Chapter 8. 맵리듀스 타입과 포맷 맵 리듀스 모델에서 데이터를 어떻게 처리하는지 살펴보자. 맵리듀스의 동작 과정이 생각나지 않는다면, 아래의 포스팅을 한 번 다시 보고 오도록 하자.. [하둡 완벽 가이드] chapter2. 맵리듀스맵리듀스란? 데이터 처리를 위한 프로그래밍 모델 병행성을 고려하여 설계되었으며, 대용량 데이터셋에서 유용함. 자바,루비,파이썬등으로 구동 가능 예제에서 다룰 기상 데이터셋의 특성에 대co-yong.tistory.com 하둡 맵리듀스의 함수 형식은 아래와 같다.map : (K1, V1) -> list(K2, V2)combiner : (K2, list(V2)) -> list(K2, V2)partition : (K2,V2) -> integerreduce: (K2, list(V2)) -> list(K3, V3)위.. 더보기
[하둡 완벽 가이드] ~ Chapter 3 Study Chapter2awk란?텍스트 파일을 행 단위로 처리하며 패턴 매칭 및 필드 기반 분석'가공에 사용awk 'pattern { action }' filepattern : 조건 / action : 패턴 일치시 실행할 코드 블록 / file : 처리할 텍스트 파일 data center 간의 고가용성 보장 어떻게? (Hadoop 기준)NameNode의 단일 장애 지점 문제 해결Active-Standby 구조 (Zookeeper(ZKFC)를 통해 장애 감지시 자동 전환)*HDFS HA 1분정도 뜨는데 걸림. zookeeper가 20초 정도 지나면 time-out 처리. PB급 복구 40초 (20초 zookeeper포함)데이터 복제 (Rack Awareness) Rack Awareness란?HDFS와 같은 분산 시.. 더보기