Flink 구축과 구성에 대해
최근에 프로젝트 진행 중 Flink 를 사용한 데이터 파이프라인을 개발하게 되면서 공부 한 내용을 정리하기 위해 포스트를 작성합니다.
Flink 란
Flink는 연속적인 데이터를 Unbounded/Bounded 형태로 처리 할 수 있도록 개발 가능한 실시간 처리 프레임워크입니다.
데이터를 소싱하는 Source Operator와 데이터를 처리하는 Transformation Operator 그리고 데이터를 싱크하는 Sink Operator로 이루어져 있습니다. 그리고 각 Operator 사이는 Stream으로 연결되어 각각의 작업을 연속적으로 수행합니다.
Flink는 다음과 같은 동작을 가능하게 합니다.
- 스트리밍 데이터 처리 파이프라인 구현
- 연속 스트림에서 이벤트 기반 애플리케이션을 구축
- 이벤트 시간을 사용해 정확한 분석 결과를 일관되게 계산 가능
- 각 Operator의 상태를 관리
- 정확히 한 번 처리(exactly-once semantics)를 보장하는 내결함성 있는 상태 기반 스트림 처리
정확한 정보는 포스트를 참조하시면 됩니다.