Big Data (Dữ liệu lớn) là gì? Tổng quan về Big Data

Big Data là cụm từ được nhắc đến trong nhiều ngành khác nhau như công nghệ thông tin, những tổ chức lớn như Y tế, ngân hàng... Nếu bạn cũng được nghe nói đến Big Data nhưng các bạn không hiểu rõ Big Data (dữ liệu lớn) là gì? Vậy mời các bạn cùng tìm hiểu tổng quan về Big Data trong bài viết dưới đây.

Big Data

Dưới đây ThuThuatPhanMem.vn chia sẻ đến các bạn khái niệm Big Data là gì? Tổng quan về Big Data, mời các bạn cùng theo dõi.

Big Data là gì?

Big Data nghĩa là dữ liệu lớn là một thuật ngữ cho việc xử lý một tập hợp dữ liệu rất lớn và phức tạp vượt xa khả năng của các công cụ phần mềm thông thường để thu nhập, hiển thị, quản lý và xử lý dữ liệu trong một thời gian có thể chấp nhận được. Kích thước dữ liệu lớn là một mục tiêu liên tục thay đổi.

Big Data là gì

Trong năm 2012, Gartner đã cập nhật định nghĩa như sau: "dữ liệu lớn là khối lượng lớn, tốc độ cao và loại hình thông tin rất đa dạng mà yêu cầu phương thức xử lý mới để cho phép tăng cường ra quyết định, khám phá bên trong và xử lý tối ưu".

Định nghĩa 3Vs của Gartner vẫn được sử dụng rộng rãi và phù hợp với định nghĩa đồng thuận: "dữ liệu lớn tiêu biểu cho tập thông tin mà đặc điểm như khối lượng lớn (Volume), tốc độ cao (Velocity) và đa dạng (Variety) để yêu cầu phương thức phân tích và công nghệ riêng biệt để biến nó thành có giá trị".

Tổng quan về Big Data

Đặc trưng của Big Data (5Vs)

  • Volume (tổng dung lượng lưu trữ): Số lượng dữ liệu được tạo ra và lưu trữ. Kích thước của dữ liệu xác định giá trị và liệu nó có thể thực sự được coi là dữ liệu lớn hay không.
  • Velocity (tốc độ xử lý): Trong trường hợp này nghĩa là tốc độ các dữ liệu được tạo ra và xử lý để đáp ứng các nhu cầu và thách thức trên con đường tăng trưởng và phát triển.
  • Variety (tính đa dạng của kiểu dữ liệu): Các dạng và kiểu của dữ liệu. Dữ liệu được thu thập từ nhiều nguồn khác nhau và các kiểu dữ liệu cũng có rất nhiều cấu trúc khác nhau.
  • Veracity (độ chính xác, tính xác thực): Vì đa dạng về các kiểu dữ liệu nên chất lượng của dữ liệu thu được có thể khác nhau rất nhiều, ảnh hưởng đến sự phân tích chính xác. Do vậy dữ liệu phải được xử lý bằng các công cụ tiên tiến (phân tích và thuật toán) để cho ra các thông tin có ý nghĩa.
  • Value (giá trị của thông tin): đây là tính chất quan trọng nhất của xu hướng công nghệ Big Data. Doanh nghiệp phải hoạch định được những giá trị thông tin hữu ích của Big Data cho vấn đề, bài toán hoặc mô hình hoạt động kinh doanh của mình.

Tổng quan về Big Data

Những nguồn chính tạo ra Big Data

  • Hộp đen dữ liệu: hộp đen dữ liệu ở đây chính là hộp đen của máy bay phản lực và trực thăng. Nguồn dữ liệu này bao gồm thông tin tạo ra bởi giọng nói của phi hành đoàn, các bản thu âm và thông tin về chuyến bay.
  • Dữ liệu các thiết bị tìm kiếm: nguồn dữ liệu này được tạo ra từ các công cụ tìm kiếm, các công cụ tìm kiếm có cơ sở dữ liệu cực kỳ rộng lớn, nơi họ có thể tìm thấy dữ liệu họ cần, đây cũng là nguồn dữ liệu lớn nhất của Big Data.
  • Dữ liệu điện lực: nguồn dữ liệu này được tạo ra bởi điện lực. Dữ liệu điện lực bao gồm các thông tin cụ thể từ các điểm giao nhau của các nút thông tin sử dụng.
  • Dữ liệu từ các kênh truyền thông xã hội: nguồn dữ liệu này được tạo ra từ các trang mạng truyền thông xã hội như Twitter, Facebook, Instagram, Pinterest và Google+.
  • Dữ liệu giao thông: nguồn dữ liệu này bao gồm sức chứa và các mẫu phương tiện giao thông, độ sẵn sàng và khoảng cách đã đi được của từng phương tiện giao thông.
  • Dữ liệu giao dịch chứng khoán: nguồn dữ liệu này được lấy từ thị trường giao dịch chứng khoán với quyết định mua và bán cổ phiếu được thực hiện bởi khách hàng.

Những nguồn chính tạo ra Big Data

Công nghệ dùng trong Big Data

Vào năm 2011, tập đoàn McKinsey đã phân tích và đề xuất những công nghệ có thể dùng với Big Data bao gồm:

  • Crowsourcing (tận dụng nguồn lực từ nhiều thiết bị điện toán trên toàn cầu để cùng nhau xử lí dữ liệu).
  • Các thuật toán về gen và di truyền.
  • Những biện pháp machine learning (ý chỉ các hệ thống có khả năng học hỏi từ dữ liệu, một nhánh của trí tuệ nhân tạo).
  • Xử lí ngôn ngữ tự nhiên (giống như siri hay google voice search, nhưng cao cấp hơn).
  • Xử lí tín hiệu,.
  • Mô phỏng, phân tích chuỗi thời gian,.
  • Mô hình hóa, kết hợp các server mạnh lại với nhau....

Công nghệ dùng trong Big Data

Ngoài ra, các cơ sở dữ liệu hỗ trợ xử lí dữ liệu song song, ứng dụng hoạt động dựa trên hoạt động tìm kiếm, file system dạng rời rạc, các hệ thống điện toán đám mây (bao gồm ứng dụng, nguồn lực tính toán cũng như không gian lưu trữ) và bản thân Internet cũng là những công cụ đắc lực phục vụ cho công tác nghiên cứu và trích xuất thông tin từ "dữ liệu lớn".

Hiện nay cũng có vài cơ sở dữ liệu theo dạng quan hệ (bảng) có khả năng chứa hàng petabyte dữ liệu, chúng cũng có thể tải, quản lí, sao lưu và tối ưu hóa cách sử dụng Big Data nữa.

Lợi ích của Big Data

Một số lợi ích mà Big Data mang lại:

  • Cắt giảm chi phí.
  • Giảm thời gian.
  • Tăng thời gian phát triển và tối ưu hóa sản phẩm.
  • Hỗ trợ con người đưa ra những quyết định đúng và hợp lý hơn.

Ví dụ: Khi mua sắm trên các trang trực tuyến như eBay, amazon... khi bạn nhấn vào mua sản phẩm nào đó thì ở dưới sẽ có sản phẩm gợi ý tiếp theo cho bạn, sản phẩm gợi ý sẽ phù hợp với sản phẩm mà bạn đang chọn. Vì thế nghiên cứu được sở thích, thói quen của khách hàng cũng gián tiếp giúp doanh nghiệp bán được nhiều hàng hóa hơn.

Ngoài ra ứng dụng được Big Data giúp các tổ chức, chính phủ dự đoán được tỉ lệ thất nghiệp, xu hướng nghề nghiệp của tương lai để đầu tư cho những hạng mục đó, hoặc cắt giảm chi tiêu, kích thích tăng trưởng kinh tế,... Hoặc sẽ dự đoán được bệnh dịch để đưa ra phương pháp ngăn chặn phù hợp.

Như vậy trên đây ThuThuatPhanMem.vn đã chia sẻ một số thông tin tổng quan về Big Data. Hi vọng sau khi đọc xong bài viết này các bạn sẽ có cái nhìn rõ hơn về Big Data (Dữ liệu lớn). Chúc các bạn thành công!

Viết bình luận