NỘI DUNG

Banner blog lễ 30.4 và 1.5

Hướng dẫn cách cài đặt Spark trên Ubuntu dành cho người mới

Hưng Nguyễn

Đã kiểm duyệt nội dung

Ngày đăng:08/05/2025
Lượt xem

Đánh giá

5/5 - (5 bình chọn)

Apache Spark là một framework mã nguồn mở mạnh mẽ được thiết kế để xử lý dữ liệu lớn trên nhiều máy tính trong cụm. Nhờ khả năng phân phối công việc hiệu quả và tốc độ xử lý vượt trội hơn Hadoop, Spark ngày càng được ưa chuộng trong cộng đồng lập trình viên và nhà phân tích dữ liệu. Trong bài viết này, mình sẽ hướng dẫn bạn cách cài đặt Spark trên Ubuntu một cách dễ hiểu, phù hợp cho người mới bắt đầu.

Những điểm chính

  • Cài đặt môi trường cần thiết cho Spark: Biết được những gói phần mềm bắt buộc cần cài đặt để chuẩn bị môi trường cho Spark hoạt động ổn định trên Ubuntu.
  • Download và thiết lập Spark cho Ubuntu: Nắm rõ cách tải và giải nén đúng phiên bản Spark phù hợp, giúp quá trình cài đặt diễn ra trơn tru.
  • Thiết lập môi trường Spark: Biết cách thiết lập biến môi trường để Spark có thể chạy được trong hệ thống mà không gặp lỗi.
  • Khởi động Spark Standalone sau khi thiết lập: Hiểu cách khởi động Spark ở chế độ độc lập để có thể chạy thử và kiểm tra các chức năng cơ bản.
  • Biết thêm Vietnix – Nhà cung cấp dịch vụ lưu trữ uy tín, tốc độ.
  • Câu hỏi thường gặp: Giải đáp một số thắc mắc phổ biến giúp bạn cài đặt và sử dụng Spark thuận lợi hơn, kể cả khi mới làm quen.

1. Cài đặt môi trường cần thiết cho Spark

Trước khi bắt đầu cài đặt Apache Spark trên Ubuntu, bạn cần đảm bảo rằng hệ thống đã có sẵn các môi trường cần thiết bao gồm Java, ScalaGit. Đây là các thành phần quan trọng giúp Spark hoạt động ổn định và tương thích tốt với hệ điều hành. Để cài đặt tất cả các gói cần thiết cùng lúc, bạn chỉ cần mở Terminal và chạy câu lệnh sau:

sudo apt install default-jdk scala git -y

Sau khi quá trình cài đặt hoàn tất, bạn có thể kiểm tra lại phiên bản của từng công cụ để xác nhận rằng chúng đã được cài đặt thành công bằng cách sử dụng lệnh sau:

java -version; javac -version; scala -version; git --version

Nếu các phiên bản hiển thị đầy đủ, bạn đã sẵn sàng chuyển sang bước tiếp theo trong quá trình cài đặt Apache Spark.

2. Download và thiết lập Spark cho Ubuntu

Để bắt đầu cài đặt Spark trên Ubuntu, trước tiên bạn cần tải xuống bộ cài từ trang chính thức của Apache Spark tại địa chỉ: https://spark.apache.org/downloads.html. Tại đây, bạn hãy chọn phiên bản Spark phù hợp với hệ thống của mình, đồng thời đảm bảo chọn đúng phiên bản tương thích với Hadoop (nếu có sử dụng) và ngôn ngữ lập trình bạn định dùng.

Cài đặt Spark trên Ubuntu
Cài đặt Spark trên Ubuntu

Sau khi tải xong, bạn có thể di chuyển file nén .tgz này đến bất kỳ thư mục nào bạn cảm thấy thuận tiện. Một số người thường đặt trong thư mục /opt theo thông lệ cài đặt phần mềm, nhưng thực tế bạn có thể đặt ở đâu cũng được, miễn sao dễ quản lý và nhớ vị trí. Để giải nén file Spark, bạn dùng lệnh sau trong Terminal:

tar xvzf <ten_file_nen_spark>.tgz

Bạn hãy thay <ten_file_nen_spark>.tgz bằng đúng tên file bạn vừa tải về. Sau khi giải nén thành công, bạn sẽ có một thư mục chứa toàn bộ file cài đặt và cấu trúc thư mục của Spark sẵn sàng cho các bước cấu hình tiếp theo.

3. Thiết lập môi trường Spark

Sau khi đã tải và giải nén Spark, bạn cần thiết lập các biến môi trường để hệ thống nhận diện và sử dụng được Spark một cách thuận tiện từ dòng lệnh:

  • Bước 1: Mở file .profile trong thư mục Home: Bạn truy cập vào thư mục Home, bật chế độ hiển thị file ẩn (thường bằng tổ hợp Ctrl + H), sau đó tìm và mở file có tên .profile.
  • Bước 2: Thêm các dòng cấu hình vào cuối file: Bạn dán đoạn cấu hình sau vào cuối file .profile:
export SPARK_HOME=<duong_dan_toi_thu_muc_ban_vua_dat_spark>
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
export PYSPARK_PYTHON=/usr/bin/python3

Bạn thay thế <duong_dan_toi_thu_muc_ban_vua_dat_spark> bằng đường dẫn thực tế đến thư mục Spark bạn đã giải nén. Ví dụ:

export SPARK_HOME=/media/trannguyenhan01092000/LEARN/spark-3.0.1-bin-hadoop2.7
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
export PYSPARK_PYTHON=/usr/bin/python3

iconLưu ý

Đảm bảo hệ thống của bạn đã cài đặt Python 3, vì Spark sẽ sử dụng phiên bản này làm môi trường thực thi mặc định cho PySpark.

  • Bước 3: Áp dụng thay đổi: Sau khi lưu file .profile, bạn có thể áp dụng các thay đổi bằng cách chạy lệnh sau trong Terminal:
source ~/.profile

4. Khởi động Spark Standalone sau khi thiết lập

Sau khi đã hoàn tất các bước thiết lập, bạn có thể khởi động Spark ở chế độ Standalone để kiểm tra xem hệ thống đã hoạt động đúng chưa. Các bước thực hiện như sau:

  • Mở Terminal và di chuyển đến thư mục sbin của Spark bằng lệnh:
cd ~/spark/sbin

iconLưu ý

Tùy theo vị trí bạn đã giải nén Spark, đường dẫn có thể khác.

  • Khởi động Spark Master bằng lệnh:
./start-master.sh
  • Kiểm tra giao diện Web UI của Spark bằng cách mở trình duyệt và truy cập địa chỉ:
http://127.0.0.1:8080/

Đây là nơi hiển thị tình trạng hoạt động của Spark Master. Bạn hãy đảm bảo không có ứng dụng nào khác đang sử dụng cổng 8080, tránh gây xung đột khi khởi chạy Spark. Nếu gặp lỗi không truy cập được Web UI, bạn nên kiểm tra lại port hoặc tắt các ứng dụng liên quan.

Sau khi chạy lệnh khởi động, đợi khoảng 10 giây, bạn sẽ thấy giao diện điều khiển xuất hiện – nghĩa là Spark đã được khởi chạy thành công ở chế độ Standalone. Đây là bước quan trọng giúp bạn xác nhận Spark đang hoạt động ổn định trước khi triển khai các tác vụ xử lý dữ liệu.

Vietnix – Nhà cung cấp dịch vụ lưu trữ uy tín, tốc độ

Vietnix là nhà cung cấp giải pháp thuê VPS vượt trội với hạ tầng mạnh mẽ, 100% SSD giúp tăng tốc truy cập và đảm bảo ổn định lâu dài. Đặc biệt, VPS Linux tại Vietnix nổi bật với hiệu suất cao, dễ dàng tùy chỉnh, bảo mật chặt chẽ và hỗ trợ backup định kỳ, phù hợp cho cả cá nhân lẫn doanh nghiệp cần một hệ thống hoạt động mượt mà, tiết kiệm chi phí. Liên hệ ngay để được tư vấn dịch vụ phù hợp!

Thông tin liên hệ:

  • Website: https://vietnix.vn/
  • Hotline: 1800 1093
  • Email: sales@vietnix.com.vn
  • Địa chỉ: 265 Hồng Lạc, Phường 10, Quận Tân Bình, TP HCM.

Câu hỏi thường gặp

Làm sao để xử lý các lỗi phổ biến khi cài đặt Spark trên Ubuntu, như lỗi không tìm thấy thư viện Java?

Để xử lý lỗi phổ biến khi cài đặt Spark trên Ubuntu, như lỗi không tìm thấy thư viện Java, bạn có thể làm theo các bước sau:
Lỗi không tìm thấy thư viện Java: Kiểm tra và cài đặt Java phiên bản phù hợp, sau đó cấu hình biến môi trường JAVA_HOME đúng để Spark nhận diện.
Lỗi không tìm thấy thư viện Hadoop (nếu dùng Hadoop): Cài đặt Hadoop và cấu hình biến môi trường HADOOP_HOME.
Lỗi cài đặt Spark không thành công: Kiểm tra tệp Spark đã tải xuống đầy đủ và giải nén đúng cách.
Lỗi quyền truy cập thư mục: Đảm bảo bạn có quyền truy cập và sở hữu thư mục cài đặt Spark.

Có thể sử dụng Spark trên Ubuntu với hệ thống ảo hóa hay không?

Có, bạn có thể sử dụng Apache Spark trên Ubuntu trong môi trường ảo hóa. Các máy ảo có thể chạy Spark như các nút trong cụm để xử lý công việc phân tán. Để đảm bảo hiệu suất, bạn cần phân bổ tài nguyên hợp lý (CPU, RAM, ổ cứng) và thiết lập kết nối mạng giữa các máy ảo. Việc cài đặt Spark trên Ubuntu trong môi trường ảo hóa tương tự như trên hệ thống vật lý.

Lời kết

Việc cài đặt Apache Spark trên Ubuntu không quá phức tạp nếu bạn làm theo từng bước một cách cẩn thận. Với hướng dẫn trong bài viết này, mình hy vọng bạn đã có thể tự tay thiết lập môi trường Spark để bắt đầu xử lý dữ liệu lớn một cách hiệu quả. Trong quá trình sử dụng, đừng quên thường xuyên kiểm tra cập nhật và tối ưu cấu hình để đảm bảo hiệu suất hệ thống luôn ổn định. Chúc bạn thành công trên hành trình khám phá sức mạnh của Apache Spark!

THEO DÕI VÀ CẬP NHẬT CHỦ ĐỀ BẠN QUAN TÂM

Đăng ký ngay để nhận những thông tin mới nhất từ blog của chúng tôi. Đừng bỏ lỡ cơ hội truy cập kiến thức và tin tức hàng ngày

Đánh giá mức độ hữu ích của bài viết

icon 1 sao

Thất vọng

icon 2 sao

Chưa hữu ích

icon 3 sao

Bình thường

icon 4 sao

Hữu ích

icon 5 sao

Rất hữu ích

Hưng Nguyễn

Co-Founder
tại

Kết nối với mình qua

Kết nối với mình qua

Theo dõi
Thông báo của
guest
0 Comments
Phản hồi nội tuyến
Xem tất cả bình luận

Tăng tốc độ website - Nâng tầm giá trị thương hiệu

Banner group
Tăng tốc tải trang

95 điểm

Nâng cao trải nghiệm người dùng

Tăng 8% tỷ lệ chuyển đổi

Thúc đẩy SEO, Google Ads hiệu quả

Tăng tốc ngay

SẢN PHẨM NỔI BẬT

Icon tab

MAXSPEED HOSTING

TĂNG TỐC WEBSITE TOÀN DIỆN

CÔNG NGHỆ ĐỘC QUYỀN

Vector

PHẦN CỨNG MẠNH MẼ

Vector

HỖ TRỢ 24/7

Vector
ĐĂNG KÝ NGAYGroup icon
khuyến mãi 30 tháng 4
Khi mua Hosting/VPS
16/04/2025 - 16/05/2025
Pattern

7 NGÀY DÙNG THỬ HOSTING

NẮM BẮT CƠ HỘI, THÀNH CÔNG DẪN LỐI

Cùng trải nghiệm dịch vụ hosting tốc độ cao được hơn 100,000 khách hàng sử dụng

icon popup single post

CẢM ƠN BẠN ĐÃ ĐÁNH GIÁ BÀI VIẾT

Vietnix sẽ luôn cố gắng cải thiện chất lượng dịch vụ mỗi ngày

ĐÓNG

Đánh giá mức độ hữu ích của bài viết

icon 1 sao

Thất vọng

icon 2 sao

Chưa hữu ích

icon 3 sao

Bình thường

icon 4 sao

Hữu ích

icon 5 sao

Rất hữu ích

Icon
ĐĂNG KÝ NHẬN TÀI LIỆU THÀNH CÔNG
Cảm ơn bạn đã đăng ký nhận tài liệu mới nhất từ Vietnix!
ĐÓNG

ĐĂNG KÝ DÙNG THỬ HOSTING

Asset

7 NGÀY MIỄN PHÍ

Asset 1

ĐĂNG KÝ DÙNG THỬ HOSTING

Asset

7 NGÀY MIỄN PHÍ

Asset 1
Icon
XÁC NHẬN ĐĂNG KÝ DÙNG THỬ THÀNH CÔNG
Cảm ơn bạn đã đăng ký thông tin thành công. Đội ngũ CSKH sẽ liên hệ trực tiếp để kích hoạt dịch vụ cho bạn nhanh nhất!
ĐÓNG