Big data

Big data là gì? Tại sao thế giới cần phải có thêm 1 làn sóng mới trong quản lý dữ liệu? Điều gì khiến Big data trở thành 1 cột trụ không thể thiếu trong Cách mạng công nghiệp 4.0?

Xin một lần nữa được nhắc lại, và tôi sẽ nhắc đi nhắc lại điều này trong suốt loạt bài tìm hiểu về Big data, rằng chúng ta đang ở trong thời kỳ của bùng nổ dữ liệu, các nguồn dữ liệu quanh chúng ta đang phát triển quá nhanh, quá nhiều và quá phức tạp, đến mức mà các mô hình quản lý dữ liệu hiện tại đã không thể đáp ứng nổi đòi hỏi cấp thiết này. Và big data, sự kết hợp của những thành tựu công nghệ trong lưu trữ và xử lý dữ liệu, ra đời với vai trò là “vị cứu tinh” cho chúng ta trong bối cảnh nóng bỏng hiện tại, trở thành làn sóng tiếp theo và mới nhất trong cuộc cách mạng về quản lý dữ liệu. Và kính thưa quý vị, chúng ta đang sống trong những ngày tháng, trong kỉ nguyên của Big data.

3 đặc điểm chính của big data bao gồm:

  • Dung lượng lưu trữ lớn.
  • Tốc độ xử lý dữ liệu nhanh.
  • Lưu trữ và xử lý nhiều dạng dữ liệu, nhiều nguồn dữ liệu khác nhau.

Một hệ thống quản lý dữ liệu được gọi là hệ thống Big data phải có cả 3 đặc điểm trên. Thiếu đi 1 trong 3 đặc điểm này, hệ thống đó không được xem là hệ thống Big data. “Xây nhà từ móng” – độ thành công của hệ thống Big data của bạn phụ thuộc phần lớn vào kiến trúc bạn xây dựng cho nó. Khi bắt đầu xây dựng 1 hệ thống Big data, chúng ta cần cân nhắc các yêu tố sau:

1. Vòng đời của quản lý dữ liệu

Việc quản lý dữ liệu bao gồm 5 giai đoạn: capture, organize, integrate, analyze và act.

Đầu tiên dữ liệu phải được thu thập (capture), sau đó chúng sẽ được tổ chức (organize) và tích hợp (integrate) vào các hệ thống. Sau khi giai đoạn này được thực hiện thành công, dữ liệu có thể được phân tích (analyze) dựa trên nhu cầu của chúng ta. Cuối cùng, việc quản lý đưa ra hành động dựa trên kết quả của các phân tích đó.

2. Tốc độ xử lý dữ liệu

Tốc độ là tất cả đối với Big data, bất kể hệ thống của bạn có thể lưu trữ được bao nhiêu dữ liệu đi chăng nữa, nếu không đáp ứng được yêu cầu về tốc độ thì mọi thứ sẽ là vô nghĩa. Hãy đảm bảo rằng bạn đã cân nhắc đến vấn đề độ trễ (latency) và thời gian chết (downtime) của hệ thống khi xây dựng kiến trúc cho hệ thống Big data.

3. Vấn đề bảo mật

Như đã nói ở trên, hệ thống Big data sẽ lưu trữ và khai thác nhiều nguồn dữ liệu khác nhau. Dữ liệu đến từ nhiều nguồn sẽ làm phát sinh vấn đề tiếp theo, đó là các yêu cầu về bảo mật, đặc biệt là đối với những nguồn dữ liệu chứa những thông tin nhạy cảm, hãy đảm bảo rằng hệ thống của bạn nhận được đúng dữ liệu mà nó cần và chỉ những người thích hợp mới có quyền xem được những dữ liệu đó.

Big data architecture

 

4. Mô hình lưu trữ và xử lý dữ liệu

Các hệ thống Big data đang lưu trữ những lượng dữ liệu khổng lồ, việc lưu trữ chúng trong cùng 1 hệ thống vật lý sẽ tốn kém và khó thực hiện. Cơ sở hạ tầng vật lý của big data dựa trên mô hình tính toán phân tán. Dữ liệu sẽ được lưu trữ tại nhiều vị trí khác nhau và được liên kết với nhau. Trong một kiến trúc thu thập dữ liệu từ nhiều nguồn khác nhau, thì API trở thành yếu tố cốt lõi cho bất kỳ kiến trúc Big Data nào. Các API tồn tại tại mỗi tầng và giữa mỗi lớp của kiến trúc Big data như trong hình bên dưới. Bên cạnh đó, hệ thống của bạn sẽ lưu trữ nhiều dạng dữ liệu khác nhau, do đó bạn sẽ cần sử dụng nhiều công cụ quản lý dữ liệu khác nhau nhằm thu được hiệu năng cao nhất với từng loại dữ liệu theo từng mục đích sử dụng.

 

Leave a Reply