정보처리기사

정형/비정형 데이터 & 빅데이터 처리 시스템 요약 (Hadoop, Spark)

news800905 2025. 5. 11. 10:51
728x90

📘 1. 데이터 형태의 구분: 정형 / 비정형 / 반정형

분류예시특징
정형(Structured) RDB, Excel 스키마 기반, SQL 처리 용이
비정형(Unstructured) 영상, 음성, SNS 자유 형식, 분석 어려움
반정형(Semi) JSON, XML 형식 존재, 스키마 유동적
 

📘 2. 빅데이터의 특성: 3V → 5V 확장

항목설명
Volume 데이터 양
Velocity 생성 속도
Variety 데이터 다양성
Veracity 신뢰성 (정확한가?)
Value 가공했을 때의 가치
 

📘 3. Hadoop 개요

  • HDFS: 분산 파일 저장 시스템
  • MapReduce: 병렬 분산 처리 엔진
  • 데이터 크기가 수 TB~PB 이상인 경우 적합
  • 단점: 속도가 느림, 실시간 처리 한계

📘 4. Spark 개요

  • In-memory 기반 처리 시스템
  • RDD (Resilient Distributed Dataset) 구조 사용
  • Hadoop보다 10~100배 빠른 처리 가능
  • Streaming / Graph / SQL / MLlib 등 다양한 확장 API 보유

📘 5. 비교 요약

항목HadoopSpark
처리 방식 디스크 기반 메모리 기반
속도 느림 빠름
실시간 불리 유리
활용 분야 대용량 배치 처리 실시간 분석, 머신러닝
 

📝 기출 포인트 정리

  • 비정형 데이터: 영상, 음성, SNS, 로그 파일 등
  • MapReduce는 Hadoop의 처리 모델
  • Spark는 RDD 기반 인메모리 처리 시스템
  • NoSQL, 분산 처리와 연계되는 문제도 함께 출제됨
728x90