NỘI DUNG

Cách cài đặt Hadoop trên Ubuntu chi tiết nhất

Hưng Nguyễn

Đã kiểm duyệt nội dung

Ngày đăng:28/05/2025

246

Lượt xem

Quy trình sản xuất nội dung

Theo dõi Vietnix

Đánh giá

[esi kkstarratings cache="private" ttl="3"]

Theo dõi trên

Hadoop là một framework mã nguồn mở giúp xử lý và lưu trữ dữ liệu lớn (big data) một cách hiệu quả trên nhiều máy tính. Với khả năng phân tán dữ liệu và xử lý song song, Hadoop giúp tăng tốc độ phân tích dữ liệu và giảm chi phí đầu tư hạ tầng. Trong bài viết này, mình sẽ hướng dẫn bạn cách cài đặt Hadoop trên hệ điều hành Ubuntu một cách chi tiết và dễ hiểu nhất.

Những điểm chính

Khái niệm: Hiểu được Hadoop là gì và vai trò quan trọng của nó trong việc xử lý dữ liệu lớn.
Cách cài đặt Hadoop trên Ubuntu: Nắm được từng bước cài đặt Hadoop chi tiết trên hệ điều hành Ubuntu, dễ áp dụng kể cả với người mới.
Vietnix – Đơn vị cung cấp dịch vụ lưu trữ uy tín: Biết thêm một nhà cung cấp dịch vụ lưu trữ có tốc độ cao, hỗ trợ tốt cho các hệ thống xử lý dữ liệu lớn.
Câu hỏi thường gặp: Giải đáp nhanh các thắc mắc phổ biến liên quan đến Hadoop và quá trình cài đặt.

Hadoop là gì?

Hadoop là một framework mã nguồn mở được viết bằng ngôn ngữ lập trình Java, dùng để chạy các ứng dụng xử lý dữ liệu trên một cụm máy tính lớn (cluster) gồm nhiều máy sử dụng phần cứng phổ thông. Framework này cho phép lưu trữ và xử lý dữ liệu lớn (big data) theo cách phân tán và song song, giúp tăng hiệu suất và khả năng mở rộng hệ thống.

Về nguyên lý, Hadoop hoạt động tương tự hệ thống tập tin của Google (Google File System), trong đó dữ liệu được chia nhỏ và phân phối trên nhiều máy khác nhau, đảm bảo tính dự phòng và độ tin cậy cao. Đây là nền tảng phổ biến được nhiều doanh nghiệp sử dụng để xử lý các khối lượng dữ liệu khổng lồ.

Vì Hadoop được viết bằng Java nên trước khi cài đặt, hệ thống cần được cài đặt Java để đảm bảo hoạt động ổn định. Do đó, trong phần tiếp theo mình sẽ hướng dẫn cách cài đặt Java trước khi tiến hành cài Hadoop trên Ubuntu.

Cách cài đặt Hadoop trên Ubuntu

Để cài đặt Hadoop trên hệ điều hành Ubuntu, bạn cần thực hiện đầy đủ các bước sau. Quá trình bao gồm cài đặt Java, tạo người dùng riêng cho Hadoop, thiết lập SSH, tải và cấu hình Hadoop. Dưới đây là hướng dẫn chi tiết:

Bước 1: Kiểm tra Java đã được cài đặt hay chưa, bạn mở Terminal và nhập lệnh:

java -version

Bước 2: Cập nhật hệ thống – Bạn chạy lần lượt 2 lệnh sau để cập nhật hệ thống:

sudo apt-get update
sudo apt-get install update

Bước 3: Cài đặt Java JDK – Bạn tiến hành cài đặt Java JDK với lệnh:

sudo apt-get install default-jdk

Bạn nhấn Y khi được hỏi để xác nhận cài đặt.

Bước 4: Kiểm tra lại Java – Sau khi cài xong, bạn kiểm tra lại Java bằng lệnh:

java -version

Bước 5: Tạo user riêng để cài Hadoop – Bạn tạo một group tên là hadoop:

sudo addgroup hadoop

Tạo người dùng mới thuộc group hadoop:

sudo adduser --ingroup hadoop hadoopusr

Khi được yêu cầu nhập mật khẩu và thông tin, bạn có thể để trống bằng cách nhấn Enter liên tục, sau đó xác nhận bằng Y.

Bước 6: Cấp quyền sudo cho user mới

sudo adduser hadoopusr sudo

Bước 7: Cài đặt SSH

sudo apt-get install openssh-server

Bước 8: Chuyển sang user hadoopusr:

su - hadoopusr

Bạn nhập mật khẩu bạn đã tạo ở bước trên.

Bước 9: Tạo SSH Key

ssh-keygen -t rsa -P ""

Bạn chỉ cần nhấn Enter khi được yêu cầu.

Bước 10: Thêm SSH Key vào danh sách được phép

cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

Bước 11: Kiểm tra SSH

ssh localhost

Bạn nhấn yes và nhập mật khẩu nếu được yêu cầu, sau đó nhập:

exit

Bước 12: Tải về Hadoop – Bạn tải phiên bản Hadoop 2.9.0 từ trang chủ của Hadoop.

Bước 13: Giải nén file Hadoop – Bạn di chuyển file hadoop-2.9.0.tar.gz vào thư mục mong muốn (ví dụ /Documents) và giải nén bằng lệnh:

sudo tar xvzf hadoop-2.9.0.tar.gz

Bước 14: Di chuyển Hadoop vào thư mục đích

sudo mv hadoop /usr/local/hadoop

Bước 15: Cấp quyền cho user Hadoop

sudo chown -R hadoopusr /usr/local

Bước 16: Cấu hình biến môi trường trong file .bashrc – Bạn mở file:

sudo gedit ~/.bashrc

Bạn thêm vào cuối file các dòng sau (chỉnh sửa đúng đường dẫn Java nếu cần):

export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"

Bạn lưu lại và chạy lệnh sau để áp dụng cấu hình:

source ~/.bashrc

Bước 17: Kiểm tra phiên bản Java – Bạn truy cập vào thư mục:

cd /usr/lib/jvm
ls

Sau đó kiểm tra tên thư mục chứa phiên bản Java.

Bước 18: Cấu hình file hadoop-env.sh – Bạn mở file:

sudo gedit /usr/local/hadoop/etc/hadoop/hadoop-env.sh

Tìm dòng export JAVA_HOME=... và chỉnh sửa hoặc thêm dòng sau:

export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64

Bước 19: Cấu hình core-site.xml – Bạn mở file:

sudo gedit /usr/local/hadoop/etc/hadoop/core-site.xml

Bạn chèn nội dung sau vào trong thẻ <configuration>:

<property>
  <name>fs.default.name</name>
  <value>hdfs://localhost:9000</value>
</property>

Bước 20: Cấu hình hdfs-site.xml – Bạn mở file:

sudo gedit /usr/local/hadoop/etc/hadoop/hdfs-site.xml

Bạn chèn nội dung sau:

<property>
  <name>dfs.replication</name>
  <value>1</value>
</property>
<property>
  <name>dfs.namenode.name.dir</name>
  <value>file:/usr/local/hadoop_tmp/hdfs/namenode</value>
</property>
<property>
  <name>dfs.datanode.data.dir</name>
  <value>file:/usr/local/hadoop_tmp/hdfs/datanode</value>
</property>

Bước 22: Cấu hình mapred-site.xml – Bạn sao chép file template và đổi tên:

sudo cp /usr/local/hadoop/etc/hadoop/mapred-site.xml.template /usr/local/hadoop/etc/hadoop/mapred-site.xml

Sau đó mở file:

sudo gedit /usr/local/hadoop/etc/hadoop/mapred-site.xml

Thêm nội dung:

<property>
  <name>mapreduce.framework.name</name>
  <value>yarn</value>
</property>

Bước 23: Tạo thư mục lưu trữ dữ liệu Hadoop

sudo mkdir -p /usr/local/hadoop_space
sudo mkdir -p /usr/local/hadoop_space/hdfs/namenode
sudo mkdir -p /usr/local/hadoop_space/hdfs/datanode

Cấp quyền:

sudo chown -R hadoopusr /usr/local/hadoop_space

Để chạy Hadoop, bạn thực hiện theo các bước sau:

Format NameNode:

hdfs namenode -format

Khởi động hệ thống DFS:

start-dfs.sh

Khởi động YARN:

start-yarn.sh

Kiểm tra các tiến trình Hadoop:

jps

Kết quả mong muốn: SecondaryNameNode, NodeManager, ResourceManager, NameNode, DataNode, jps.

Truy cập giao diện quản trị Hadoop:

http://localhost:50070

Nếu hiển thị được giao diện Hadoop nghĩa là bạn đã cài đặt thành công.

Vietnix – Đơn vị cung cấp dịch vụ lưu uy tín, tốc độ cao

Vietnix – Nhà cung cấp dịch vụ lưu trữ chất lượng cao, mang đến giải pháp thuê VPS với hiệu năng mạnh mẽ, đảm bảo tốc độ truy cập nhanh và ổn định. Với VPS Linux tại Vietnix, bạn dễ dàng tùy chỉnh hệ thống, quản lý linh hoạt và vận hành mượt mà kể cả trong môi trường tải cao. Hệ thống backup tự động, phân quyền chặt chẽ cùng khả năng mở rộng linh hoạt giúp tối ưu chi phí và tăng cường bảo mật cho mọi nhu cầu sử dụng. Liên hệ ngay để được tư vấn chi tiết!

Thông tin liên hệ:

Hotline: 18001093
Email: sales@vietnix.com.vn
Địa chỉ: 265 Hồng Lạc, Phường Bảy Hiền, Thành phố Hồ Chí Minh.
Website: https://vietnix.vn/

Câu hỏi thường gặp

Vì sao nên chọn Ubuntu thay vì CentOS hoặc Debian để cài đặt Hadoop trong môi trường học tập và thử nghiệm?

Ubuntu là lựa chọn tốt để cài đặt Hadoop trong môi trường học tập và thử nghiệm vì:
– Dễ cài đặt: Ubuntu cung cấp hướng dẫn chi tiết và đơn giản hóa quá trình cài đặt Hadoop.
– Hỗ trợ cộng đồng mạnh mẽ: Cộng đồng Ubuntu rộng lớn giúp giải quyết nhanh chóng các vấn đề gặp phải.
– Tương thích cao: Ubuntu luôn hỗ trợ các phần mềm mới nhất, giảm thiểu sự cố tương thích.
– Quản lý gói thuận tiện: Hệ thống APT giúp cài đặt và quản lý phần mềm nhanh chóng.
So với CentOS và Debian, Ubuntu dễ sử dụng hơn, với tài liệu hướng dẫn rõ ràng, phù hợp cho mục đích học tập và thử nghiệm.

Có nên sử dụng Docker để cài đặt Hadoop trên Ubuntu? Ưu và nhược điểm?

Việc sử dụng Docker để cài đặt Hadoop trên Ubuntu có những ưu và nhược điểm:
Ưu điểm:
– Cài đặt nhanh: Docker giúp cài đặt Hadoop dễ dàng và nhanh chóng.
– Di động và tách biệt môi trường: Dễ dàng triển khai trên nhiều máy chủ, tránh xung đột phần mềm.
– Quản lý và mở rộng linh hoạt: Docker hỗ trợ quản lý container Hadoop và dễ dàng mở rộng.
– Tiết kiệm tài nguyên: Docker chạy nhẹ, tiết kiệm tài nguyên hơn máy ảo.
Nhược điểm:
– Hiệu suất thấp hơn: Docker có thể giảm hiệu suất so với cài đặt gốc, đặc biệt với tác vụ đòi hỏi tài nguyên cao.
– Cấu hình mạng phức tạp: Việc cấu hình mạng giữa các container có thể gặp khó khăn.
– Khó khăn trong bảo trì: Quản lý và xử lý sự cố có thể phức tạp hơn trong môi trường container.
– Không phù hợp sản xuất quy mô lớn: Docker không phải là lựa chọn tối ưu cho môi trường sản xuất với yêu cầu hiệu suất cao.

Lời kết

Qua bài viết này, bạn đã nắm được cách cài đặt Hadoop trên Ubuntu một cách chi tiết và rõ ràng. Việc triển khai Hadoop trên hệ điều hành Ubuntu không chỉ giúp bạn làm quen với môi trường phân tán mà còn cung cấp nền tảng vững chắc để phát triển các dự án Big Data. Dù bạn là người mới bắt đầu hay đang tìm kiếm một giải pháp học tập, Ubuntu luôn là sự lựa chọn lý tưởng. Cảm ơn bạn đã theo dõi bài viết!

Mọi người cũng xem:

THEO DÕI VÀ CẬP NHẬT CHỦ ĐỀ BẠN QUAN TÂM

Đăng ký ngay để nhận những thông tin mới nhất từ blog của chúng tôi. Đừng bỏ lỡ cơ hội truy cập kiến thức và tin tức hàng ngày

Đánh giá mức độ hữu ích của bài viết

Thất vọng

Chưa hữu ích

Bình thường

Hữu ích

Rất hữu ích

Hưng Nguyễn

Co-Founder

tại

Vietnix

Kết nối với mình qua

Tôi là Nguyễn Hưng (Bo) – Chuyên gia hệ thống, mạng và bảo mật với hơn 13 năm kinh nghiệm, đồng thời là Co-Founder của Vietnix, nhà cung cấp dịch vụ Hosting, VPS và điện toán đám mây hàng đầu tại Việt Nam. Với niềm đam mê chia sẻ kiến thức, tôi luôn nỗ lực mang đến những bài viết hữu ích cho cộng đồng yêu công nghệ.

Kết nối với mình qua