Các làn sóng trong quản lý dữ liệu

Tính đến thời điểm hiện tại, công nghệ quản lý dữ liệu đã trải quả 3 làn sóng chính, trong bài viết này chúng ta sẽ cùng tìm hiểu về các làn sóng này. Các làn sóng trong quản lý dữ liệu được tạo ra nhằm giải quyết những loại vấn đề cụ thể trong việc quản lý dữ liệu. Khi 1 giải pháp công nghệ mới ra đời, nó đòi hỏi phải tìm ra những cách tiếp cận mới. Trong kinh doanh, có thể nói rằng khả năng khai thác dữ liệu của bạn sẽ quyết định đến lợi nhuận mà bạn thu được.

Làn sóng mới nhất trong việc quản lý dữ liệu chính là sự khởi đầu của kỉ nguyên Big data. Như đã nói ở bài trước, big data là kết quả của quá trình phát triển trong hơn 5 thập kỉ của các công nghệ về quản lý dữ liệu. Vì vậy, để hiểu được big data, chúng ta phải hiểu được nền tảng của những làn sóng trước đó. Và khi chúng ta di chuyển từ làn sóng này sang làn sóng khác, chúng ta không bỏ đi những công cụ và công nghệ và những kinh nghiệm đã có được từ những làn sóng trước đó.

Làn sóng 1: Tạo ra các cấu trúc dữ liệu có thể quản lý

Cuối thập niên 1960, thị trường tài chính bắt đầu đưa việc tính toán vào hoạt động kinh doanh của mình, dữ liệu được lưu trữ trong những tập tin không có cấu trúc. Để thu được những thông tin cần thiết, các công ty phải sử dụng các phương pháp vét cạn, bao gồm các mô hình lập trình cụ thể cho từng hoàn cảnh.

Trong thập niên 1970, việc xử lý dữ liệu đã thay đổi với việc phát minh ra mô hình dữ liệu quan hệ và hệ quản trị cơ sở dữ liệu quan hệ (RDBMS), các công nghệ này đã định nghĩa ra cấu trúc và phương thức nâng cao được hiệu quả của việc khai thác dữ liệu ở thời điểm hiện tại. Quan trọng nhất, mô hình quan hệ đã thêm 1 mức độ trừu tượng (ngôn ngữ truy vấn cấu trúc – SQL, các trình khởi tạo báo cáo, và các công cụ quản lý dữ liệu) giúp cho các lập trình viên dễ dàng hơn trong việc làm việc với dữ liệu.

Mô hình quan hệ đã mang đến 1 hệ sinh thái các công cụ làm việc dựa trên nó. Nó giúp các công ty tổ chức tốt hơn dữ liệu của họ. Bên cạnh đó là những phương thức quản lý, làm việc với dữ liệu hiệu quả hơn. Tuy nhiên vẫn có vấn đề là việc lưu trữ đắt đỏ và việc truy cập thì chậm. Thêm vào đó là nhiều dữ liệu bị trùng lặp, và giá trị kinh doanh thật sự của các dữ liệu đó khó mà đo lường được.

Tại giai đoạn này, một nhu cầu khẩn cấp tồn tại là cần tìm ra những công nghệ mới để hỗ trợ mô hình quan hệ. Mô hình thực thể-quan hệ (Entity-Relationship – ER) xuất hiện, đã bổ sung thêm các khái niệm trừu tượng để tăng khả năng sử dụng của dữ liệu. Trong mô hình này, mỗi phần tử được định nghĩa độc lập với việc sử dụng nó. Vì thế, các nhà phát triển có thể tạo các quan hệ mới giữa các nguồn dữ liệu (data source) mà không làm phức tạp việc lập trình. Đó là 1 tiến bộ lớn vào lúc đó, và nó cho phép các nhà phát triển thúc đẩy các ranh giới của công nghệ và tạo ra các mô hình phức tạp hơn đòi hỏi các kỹ thuật phức tạp cho việc kết hợp các thực thể với nhau. Thị trường cho các CSDL quan hệ bùng nổ và vẫn còn sôi động cho đến ngày hôm nay. Nó đặc biệt quan trọng cho việc quản lý dữ liệu giao dịch của các dữ liệu được cấu trúc cao.

Khi lượng dữ liệu mà các tổ chức cần quản lý phát triển ngoài tầm kiểm soát, công nghệ kho dữ liệu (data warehouse) xuất hiện và cung cấp giải pháp cho vấn đề này. Nói một cách đơn giản, data warehouse là hệ thống cơ sở dữ liệu máy tính được thiết kế, sắp xếp có mục đích và định hướng rõ ràng của một tổ chức nhằm mục đích quản lý, cung cấp thông tin một cách kịp thời, chính xác, đồng thời là nền tảng cho việc xây dựng các ứng dụng phân tích dữ liệu, hỗ trợ ra quyết định. Công nghệ data warehouse là tập các phương pháp, kỹ thuật và các công cụ có thể kết hợp, hỗ trợ nhau để cung cấp thông tin cho người sử dụng trên cơ sở tích hợp từ nhiều nguồn dữ liệu, nhiều môi trường khác nhau. Các data warehouse thường rất lớn và được xây dựng để tiện lợi cho việc truy cập theo nhiều nguồn, nhiều kiểu dữ liệu khác nhau sao cho có thể kết hợp được cả những ứng dụng của các công nghệ hiện đại và kế thừa được từ những hệ thống đã có sẵn từ trước.

Các data warehouse đã giải quyết nhiều vấn đề trong việc quản lý lượng dữ liệu cấu trúc khổng lồ. Nhưng khi đi đến việc quản lý các dung lượng khổng lồ của dữ liệu không cấu trúc hay bán cấu trúc, data warehouse đã không thể phát triển kịp để đáp ứng được các nhu cầu này.

Làn sóng 2: Quản lý web và nội dung

Phần lớn dữ liệu có trong thế giới ngày này là không cấu trúc. Trong khi đó, các công ty lại đang tập trung tiền bạc của họ vào các hệ thống với dữ liệu cấu trúc. Các hệ thống quản lý nội dung doanh nghiệp đã xuất hiện trong thập niên 1980 để cung cấp cho các ngành kinh doanh khả năng quản lý tốt hơn dữ liệu không cấu trúc, phần lớn là tài liệu. Trong những năm 1990, với sự phát triển của web, các tổ chức muốn tiến xa hơn xong việc quản lý dữ liệu thông qua việc lưu trữ và quản lý các nội dung web như image, audio, và video.

Các hệ thống thế hệ mới đã thêm vào các khái niệm về siêu dữ liệu – metadata (thông tin về tổ chức và các đặc trưng của thông tin được lưu trữ). Với những tiến bộ trong công nghệ web đã giúp các công ty tiến thêm 1 bước trong việc quản lý dữ liệu hiệu quả hơn. Nhưng cùng lúc đó, 1 thế hệ mới các yêu cầu đã bắt đầu nổi lên để đưa chúng ta đến làn sóng tiếp theo. Với sự hội tụ của các yêu tố bao gồm các công nghệ về web, ảo hóa, và điện toán đám mây (cloud computing). Trong làn sóng mới này, các tổ chức bắt đầu hiểu rằng họ cần quản lý các nguồn dữ liệu thế hệ mới với 1 dung lượng khổng lồ và sự đa dạng dữ liệu chưa từng thấy trước đây, đồng thời với đó là tốc độ xử lý ngày càng phải nhanh hơn để kịp đáp ứng với các nhu cầu kinh doanh của thị trường.

Làn sóng 3: Quản lý Big data

Như đã nói ở bài trước, Big data là sự đổi mới được xây dựng dựa trên những tiến bộ trong công nghệ quản lý dữ liệu trong hơn 5 thập kỉ qua. Lần đầu tiên, chi phí của các chu kì tính toán và lưu trữ đã đạt đến đỉnh điểm của nó. Trước đây, để giải quyết việc này, các tổ chức chọn việc lưu trữ snapshot hay các tập con của các thông tin quan trọng bởi vì chi phí lưu trữ và giới hạn xử lý không cho phép các tổ chức lưu trữ mọi thứ mà họ muốn phân tích.

Trong nhiều trường hợp, sự thỏa hiệp đã làm việc tốt. Tuy nhiên, sẽ có thể có những tình huống nơi mà các snapshot sẽ không lưu trữ đủ những thông tin cần thiết và việc này có thể không được phát hiện ra trong thời gian dài.

Với big data, thông qua việc phân tích, dữ liệu sẽ được lưu trữ hiệu quả hơn, cùng với việc sử dụng các dịch vụ lưu trữ đám mây, chi phí lưu trữ sẽ được tối ưu hơn. Thêm nữa, những cải tiến trong tốc độ mạng và độ tin cậy đã xóa bỏ những giới hạn vật lý trong việc quản lý lượng dữ liệu lớn với  tốc độ chấp nhận được. Với tất cả những chuyển đổi công nghệ này, hiện các công ty có thể  sử dụng nhiều cách để quản lý dữ liệu mà mới chỉ 5 năm trước đây chúng ta không thể tưởng tượng được.

Nhưng không có sự chuyển đổi công nghệ nào diễn ra một mình. Nhiều công nghệ tại trung tâm của big data, như ảo hóa (virtualization), xử lý song song (parallel processing), các hệ thống tập tin phân tán, và các CSDL trên bộ nhớ, đã có từ nhiều thập kỉ. Các tiến bộ trong phân tích cũng đã diễn ra trong thời gian dài, mặc dù chúng không phải lúc nào cũng thiết thực. Các công nghệ khác như Hadoop và MapReduce đã có mặt mới chỉ vài năm gần đây. Sự kết hợp các tiến bộ công nghệ này có thể giải quyết nhiều vấn đề quan trọng.

Nếu các công ty có thể phân tích nhiều Petabyte dữ liệu với hiệu năng chấp nhận được, các ngành kinh doanh có thể bắt đầu khai thác dữ liệu theo nhiều cách mới. Việc di chuyển đến big data không chỉ  dành riêng cho kinh doanh. Khoa học, nghiên cứu, và các hoạt động chính phủ cũng đã giúp thúc đẩy sự phát triển và phổ biến của big data.

 

Discussion

  1. Trackback: Big data 11/28/2017

Leave a Reply