Apache Spark là gì – Hành trang Lập trình blog

Apache Spark in-memory clusters đang là tiêu điểm chú ý quan tâm của nhiều doanh nghiệp trong việc ứng dụng công nghệ tiên tiến vào nghiên cứu và phân tích và giải quyết và xử lý tài liệu nhanh gọn. Trong bài viết này, tôi sẽ trình diễn một bức tranh tổng quan nhất về Apache Spark, một trong những gỉai pháp yên cầu phải có khi muốn giải quyết và xử lý Big data .

Tổng quan về Spark

Apache Spark là một open source cluster computing framework được tăng trưởng sơ khởi vào năm 2009 bởi AMPLab tại ĐH California, Berkeley. Sau này, Spark đã được trao cho Apache Software Foundation vào năm 2013 và được tăng trưởng cho đến nay .
Spark được cho phép thiết kế xây dựng và nghiên cứu và phân tích nhanh những quy mô Dự kiến. Hơn nữa, nó còn phân phối năng lực truy xuất hàng loạt tài liệu cùng lúc, nhờ vậy ta không cần phải lấy mẫu dữ liệu – yên cầu bởi những ngôn từ lập trình như R. Thêm vào đó, Spark còn phân phối tính năng streaming, được dùng để kiến thiết xây dựng những quy mô real-time bằng cách nạp hàng loạt tài liệu vào bộ nhớ .

Khi ta có một tác vụ nào đó qúa lớn mà không thể xử lý trên một laptop hay một server, Spark cho phép ta phân chia tác vụ này thành những phần dễ quản lý hơn. Sau đó, Spark sẽ chạy các tác vụ này trong bộ nhớ, trên các cluster của nhiều server khác nhau để khai thác tốc độ truy xuất nhanh từ RAM. Spark sử dụng API Resilient Distributed Dataset (RDD) để xử lý dữ liệu.

Spark nhận được nhiều sự hưởng ứng từ hội đồng Big data trên quốc tế do phân phối năng lực đo lường và thống kê nhanh và nhiều thư viện đi kèm có ích như Spark SQL ( với kiểu tài liệu DataFrames ), Spark Streaming, MLlib ( machine learning : classification, regression, clustering, collaborative filtering, và dimensionality reduction ) và GraphX ( màn biểu diễn đồ thị nhờ kết qủa đo lường và thống kê song song ) .

Những điểm sáng gía ngoài tốc độ tính toán nhanh

Sự đơn gỉan: Một trong những chỉ trích thường gặp ở Hadoop đó là sự phức tạp trong qúa trình phát triển, mặc dù đây là một trong những phương pháp tính toán đơn gỉan và hiệu qủa gíup tăng tốc độ xử lý của hệ thống. Thay vì đòi hỏi người dùng phải hiểu rạch ròi về MapReduce và lập trình Java, Spark sinh ra để gíup mọi người tiếp cận với công nghệ tính toán song song dễ dàng hơn rất nhiều. Người dùng chỉ cần một vài kiến thức cơ bản về database cộng với lập trình Python hay Scala là có thể sử dụng được.

Độc lập với các nhà cung cấp dịch vụ Hadoop: Hầu hết các nhà cung cấp dịch vụ Hadoop đều hỗ trợ Spark. Điều này có nghĩa Spark không phụ thuộc vào các nhà cung cấp này. Nếu bạn muốn thay đổi nhà cung cấp dịch vụ, ta chỉ cần đem hệ thống Spark qua nhà cung cấp mới mà không lo ngại việc mất mát thông tin.

Một vài thống kê thú vị

  • 62% số người khảo sát dùng Spark với HDFS, 46% sử dụng với các hệ quản trị CSDL như Cassandra, HBase, Hive, Tachyon, 41% đang sử dụng với Kafka, và 29% đang sử dụng cùng Amazon S3.
  • Đối với hệ quản trị cluster, 56% đang chạy độc lập Spark, 42% sử dụng YARN, và 26% sử dụng Apache Mesos.
  • Đối với ngôn ngữ lập trình, 88% sử dụng Scala, 44% sử dụng Java, và 22% sử dụng Python.
  • Mức độ quan tâm của doanh nghiệp về Spark: 91% về tốc độ tính toán, 77% về việc dễ lập trình, 71% về việc dễ phát triển, 64% về các công cụ phân tích dữ liệu tiên tiến, 52% về real-time streaming.
  • Sử dụng Spark trên 206 hệ thống EC2 để sắp xếp 100TB dữ liệu chỉ tốn 23 phút. Trong khi đó, kỉ lục trước đây trên Hadoop sử dụng MapReduce trên 2,100 máy tính phải tiêu tốn 72 phút. Điều này có nghĩa rằng Spark sắp xếp dữ liệu nhanh gấp 3 lần Hadoop mà chỉ sử dụng ít hơn 10 lần số máy tính.
  • Các thành phần được sử dụng trong Spark: 69% sử dụng Spark SQL, 62% sử dụng Dataframes, 58% sử dụng MLib + GraphX, 58% sử dụng Streaming.

Kết luận

Đối với những nhà sản xuất gỉai pháp, Apache Spark là một lá bài quan trọng trong việc sử dụng những công nghệ tiên tiến cốt lõi để thiết kế xây dựng những data warehouses tân tiến. Đây là một phân khúc lớn trong ngành IT có năng lực thu về hàng tỉ đô lệch giá hằng năm .
Spark đưa ra một khái niệm mới mang nhiều hứa hẹn trong tương lai đó là data lakes. Đây là một nơi tàng trữ một lượng tài liệu khổng lồ với nhiều định dạng khác nhau và được truy vấn để giải quyết và xử lý khi thiết yếu. Data lakes đưa ra một framework thương mại hoàn toàn có thể tạo ra một môi trường tự nhiên tàng trữ vô hạn bất kể loại tài liệu nào .

Spark Demo

Nguồn : https://ongxuanhong.wordpress.com/2015/11/16/apache-spark-la-gi

Source: https://iseo1.com
Category: Marketing

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *