728x90
📘 1. 데이터 형태의 구분: 정형 / 비정형 / 반정형
분류예시특징
정형(Structured) | RDB, Excel | 스키마 기반, SQL 처리 용이 |
비정형(Unstructured) | 영상, 음성, SNS | 자유 형식, 분석 어려움 |
반정형(Semi) | JSON, XML | 형식 존재, 스키마 유동적 |
📘 2. 빅데이터의 특성: 3V → 5V 확장
항목설명
Volume | 데이터 양 |
Velocity | 생성 속도 |
Variety | 데이터 다양성 |
Veracity | 신뢰성 (정확한가?) |
Value | 가공했을 때의 가치 |
📘 3. Hadoop 개요
- HDFS: 분산 파일 저장 시스템
- MapReduce: 병렬 분산 처리 엔진
- 데이터 크기가 수 TB~PB 이상인 경우 적합
- 단점: 속도가 느림, 실시간 처리 한계
📘 4. Spark 개요
- In-memory 기반 처리 시스템
- RDD (Resilient Distributed Dataset) 구조 사용
- Hadoop보다 10~100배 빠른 처리 가능
- Streaming / Graph / SQL / MLlib 등 다양한 확장 API 보유
📘 5. 비교 요약
항목HadoopSpark
처리 방식 | 디스크 기반 | 메모리 기반 |
속도 | 느림 | 빠름 |
실시간 | 불리 | 유리 |
활용 분야 | 대용량 배치 처리 | 실시간 분석, 머신러닝 |
📝 기출 포인트 정리
- 비정형 데이터: 영상, 음성, SNS, 로그 파일 등
- MapReduce는 Hadoop의 처리 모델
- Spark는 RDD 기반 인메모리 처리 시스템
- NoSQL, 분산 처리와 연계되는 문제도 함께 출제됨
728x90
'정보처리기사' 카테고리의 다른 글
운영체제 기초 이론: 운영체제 역할, 주요 기능, 프로세스 vs 스레드 구분 (0) | 2025.05.13 |
---|---|
데이터베이스 마무리 정리 – 데이터 사전, 정합성, 메타데이터, SQL 보안 이슈 (0) | 2025.05.12 |
📘 [12일차] NoSQL, 분산 데이터베이스, CAP 이론 — 정보처리기사 최신 기술 흐름 요약 (1) | 2025.05.10 |
📘 [11일차] 데이터베이스 보안과 백업 복구 전략 완전 정리 (0) | 2025.05.09 |
📘 [10일차] 뷰(View), 인덱스(Index), 클러스터링(Clustering) 완전 정리 (0) | 2025.05.08 |