Spark Là Gì ? Nghĩa Của Từ Spark Trong Tiếng Việt Phân Biệt Apache Hadoop Và Apache Spark

Ngày nay có rất nhiều mạng lưới hệ thống đang sử dụng Hadoop để nghiên cứu và phân tích và giải quyết và xử lý tài liệu lớn. Ưu điểm lớn nhất của Hadoop là được dựa trên một quy mô lập trình song song với giải quyết và xử lý tài liệu lớn là MapReduce, quy mô này được cho phép năng lực thống kê giám sát hoàn toàn có thể lan rộng ra, linh động, năng lực chịu lỗi, ngân sách rẻ. Điều này được cho phép tăng cường thời hạn giải quyết và xử lý những tài liệu lớn nhằm mục đích duy trì vận tốc, giảm thời hạn chờ đón khi tài liệu ngày càng lớn .Bạn đang xem : Spark là gì

Dù có rất nhiều điểm mạnh về khả năng tính toán song song và khả năng chịu lỗi cao nhưng Apache Haddop có một nhược điểm là tất cả các thao tác đều phải thực hiện trên ổ đĩa cứng điều này đã làm giảm tốc độ tính toán đi gấp nhiều lần.

Để khắc phục được điểm yếu kém này thì Apache Spark được sinh ra. Apache Spark hoàn toàn có thể chạy nhanh hơn 10 lần so với Haddop ở trên đĩa cứng và 100 lần khi chạy trên bộ nhớ RAM .1. Giới thiệu về Apache Spark1. Giới thiệu về Apache Spark*Apache Spark là một framework mã nguồn mở giám sát cụm, được tăng trưởng sơ khởi vào năm 2009 bởi AMPLab. Sau này, Spark đã được trao cho Apache Software Foundation vào năm 2013 và được tăng trưởng cho đến nay .Tốc độ giải quyết và xử lý của Spark có được do việc giám sát được thực thi cùng lúc trên nhiều máy khác nhau. Đồng thời việc đo lường và thống kê được thực thi ở bộ nhớ trong ( in-memories ) hay thực thi trọn vẹn trên RAM .Spark được cho phép giải quyết và xử lý tài liệu theo thời hạn thực, vừa nhận tài liệu từ những nguồn khác nhau đồng thời thực thi ngay việc giải quyết và xử lý trên tài liệu vừa nhận được ( Spark Streaming ) .Spark không có mạng lưới hệ thống file của riêng mình, nó sử dụng mạng lưới hệ thống file khác như : HDFS, Cassandra Stavrou, S3, …. Spark tương hỗ nhiều kiểu định dạng file khác nhau ( text, csv, json … ) đồng thời nó trọn vẹn không nhờ vào vào bất kỳ một mạng lưới hệ thống file nào .Xem thêm : Kết Ấn Tay ( P1 ) – Những Kiểu Kết Ấn Tay Trong Naruto2. Thành phần của Spark

2. Thành phần của Spark

*

Apache Spark gồm có 5 thành phần chính : Spark Core, Spark Streaming, Spark SQL, MLlib và GraphX, trong đó:

Spark Core là nền tảng cho các thành phần còn lại và các thành phần này muốn khởi chạy được thì đều phải thông qua Spark Core do Spark Core đảm nhận vai trò thực hiện công việc tính toán và xử lý trong bộ nhớ (In-memory computing) đồng thời nó cũng tham chiếu các dữ liệu được lưu trữ tại các hệ thống lưu trữ bên ngoài.

Spark SQL cung cấp một kiểu data abstraction mới (SchemaRDD) nhằm hỗ trợ cho cả kiểu dữ liệu có cấu trúc (structured data) và dữ liệu nửa cấu trúc (semi-structured data – thường là dữ liệu dữ liệu có cấu trúc nhưng không đồng nhất và cấu trúc của dữ liệu phụ thuộc vào chính nội dung của dữ liệu ấy). Spark SQL hỗ trợ DSL (Domain-specific language) để thực hiện các thao tác trên DataFrames bằng ngôn ngữ Scala, Java hoặc Python và nó cũng hỗ trợ cả ngôn ngữ SQL với giao diện command-line và ODBC/JDBC server.

Spark Streaming được sử dụng để thực hiện việc phân tích stream bằng việc coi stream là các mini-batches và thực hiệc kỹ thuật RDD transformation đối với các dữ liệu mini-batches này. Qua đó cho phép các đoạn code được viết cho xử lý batch có thể được tận dụng lại vào trong việc xử lý stream, làm cho việc phát triển lambda architecture được dễ dàng hơn. Tuy nhiên điều này lại tạo ra độ trễ trong xử lý dữ liệu (độ trễ chính bằng mini-batch duration) và do đó nhiều chuyên gia cho rằng Spark Streaming không thực sự là công cụ xử lý streaming giống như Storm hoặc Flink.

MLlib (Machine Learning Library): MLlib là một nền tảng học máy phân tán bên trên Spark do kiến trúc phân tán dựa trên bộ nhớ. Theo các so sánh benchmark Spark MLlib nhanh hơn 9 lần so với phiên bản chạy trên Hadoop (Apache Mahout).

GrapX: Grapx là nền tảng xử lý đồ thị dựa trên Spark. Nó cung cấp các Api để diễn tảcác tính toán trong đồ thị bằng cách sử dụng Pregel Api.

3. Những điểm nổi bật của SparkXử lý dữ liệu: Spark xử lý dữ liệu theo lô và thời gian thựcTính tương thích: Có thể tích hợp với tất cả các nguồn dữ liệu và định dạng tệp được hỗ trợ bởi cụm Hadoop.Hỗ trợ ngôn ngữ: hỗ trợ Java, Scala, Python và R.Phân tích thời gian thực:Apache Spark có thể xử lý dữ liệu thời gian thực tức là dữ liệu đến từ các luồng sự kiện thời gian thực với tốc độ hàng triệu sự kiện mỗi giây. Ví dụ: Data Twitter chẳng hạn hoặc luợt chia sẻ, đăng bài trên Facebook. Sức mạnh Spark là khả năng xử lý luồng trực tiếp hiệu quả.Apache Spark có thể được sử dụng để xử lý phát hiện gian lận trong khi thực hiện các giao dịch ngân hàng. Đó là bởi vì, tất cả các khoản thanh toán trực tuyến được thực hiện trong thời gian thực và chúng ta cần ngừng giao dịch gian lận trong khi quá trình thanh toán đang diễn ra.Mục tiêu sử dụng:Xử lý dữ liệu nhanh và tương tácXử lý đồ thịCông việc lặp đi lặp lạiXử lý thời gian thựcjoining DatasetMachine LearningApache Spark là Framework thực thi dữ liệu dựa trên Hadoop HDFS. Apache Spark không thay thế cho Hadoop nhưng nó là một framework ứng dụng. Apache Spark tuy ra đời sau nhưng được nhiều người biết đến hơn Apache Hadoop vì khả năng xử lý hàng loạt và thời gian thực.Những doanh nghiệp sử dụng Apache Spark3. Những điểm điển hình nổi bật của SparkXử lý dữ liệu : Spark giải quyết và xử lý tài liệu theo lô và thời hạn thựcTính thích hợp : Có thể tích hợp với toàn bộ những nguồn tài liệu và định dạng tệp được tương hỗ bởi cụm Hadoop. Hỗ trợ ngôn từ : tương hỗ Java, Scala, Python và R.Phân tích thời hạn thực : Apache Spark hoàn toàn có thể giải quyết và xử lý tài liệu thời hạn thực tức là tài liệu đến từ những luồng sự kiện thời hạn thực với vận tốc hàng triệu sự kiện mỗi giây. Ví dụ : Data Twitter ví dụ điển hình hoặc luợt san sẻ, đăng bài trên Facebook. Sức mạnh Spark là năng lực giải quyết và xử lý luồng trực tiếp hiệu suất cao. Apache Spark hoàn toàn có thể được sử dụng để giải quyết và xử lý phát hiện gian lận trong khi triển khai những thanh toán giao dịch ngân hàng nhà nước. Đó là chính do, toàn bộ những khoản thanh toán giao dịch trực tuyến được triển khai trong thời hạn thực và tất cả chúng ta cần ngừng thanh toán giao dịch gian lận trong khi quy trình giao dịch thanh toán đang diễn ra. Mục tiêu sử dụng : Xử lý tài liệu nhanh và tương tácXử lý đồ thịCông việc lặp đi lặp lạiXử lý thời hạn thựcjoining DatasetMachine LearningApache Spark là Framework thực thi tài liệu dựa trên Hadoop HDFS. Apache Spark không sửa chữa thay thế cho Hadoop nhưng nó là một framework ứng dụng. Apache Spark tuy sinh ra sau nhưng được nhiều người biết đến hơn Apache Hadoop vì năng lực giải quyết và xử lý hàng loạt và thời hạn thực. Những doanh nghiệp sử dụng Apache Spark

Hiện nay, có rất nhiều hãng lớn đã dùng Spark cho các sản phẩm của mình như Yahoo, ebay, IBM, Cisco…

*Tổng kếtVới sự tăng trưởng can đảm và mạnh mẽ trong vài năm trở lại đây của Apache Spark thì lập trình viên, những nhà khoa học máy tính có thêm công cụ hữu hiệu để ship hàng việc làm của mình và người ta sẽ dần quên “ Hadoop Stack ” mà sửa chữa thay thế vào đó sẽ là “ Big data Stack ”, với nhiều sự lựa chọn hơn không chỉ là Hadoop .

Source: https://iseo1.com
Category: Coin

Trả lời

Email của bạn sẽ không được hiển thị công khai.