Hadoop là một framework mã nguồn mở giúp xử lý và lưu trữ dữ liệu lớn (big data) một cách hiệu quả trên nhiều máy tính. Với khả năng phân tán dữ liệu và xử lý song song, Hadoop giúp tăng tốc độ phân tích dữ liệu và giảm chi phí đầu tư hạ tầng. Trong bài viết này, mình sẽ hướng dẫn bạn cách cài đặt Hadoop trên hệ điều hành Ubuntu một cách chi tiết và dễ hiểu nhất.
Những điểm chính
- Khái niệm: Hiểu được Hadoop là gì và vai trò quan trọng của nó trong việc xử lý dữ liệu lớn.
- Cách cài đặt Hadoop trên Ubuntu: Nắm được từng bước cài đặt Hadoop chi tiết trên hệ điều hành Ubuntu, dễ áp dụng kể cả với người mới.
- Vietnix – Đơn vị cung cấp dịch vụ lưu trữ uy tín: Biết thêm một nhà cung cấp dịch vụ lưu trữ có tốc độ cao, hỗ trợ tốt cho các hệ thống xử lý dữ liệu lớn.
- Câu hỏi thường gặp: Giải đáp nhanh các thắc mắc phổ biến liên quan đến Hadoop và quá trình cài đặt.
Hadoop là gì?
Hadoop là một framework mã nguồn mở được viết bằng ngôn ngữ lập trình Java, dùng để chạy các ứng dụng xử lý dữ liệu trên một cụm máy tính lớn (cluster) gồm nhiều máy sử dụng phần cứng phổ thông. Framework này cho phép lưu trữ và xử lý dữ liệu lớn (big data) theo cách phân tán và song song, giúp tăng hiệu suất và khả năng mở rộng hệ thống.

Về nguyên lý, Hadoop hoạt động tương tự hệ thống tập tin của Google (Google File System), trong đó dữ liệu được chia nhỏ và phân phối trên nhiều máy khác nhau, đảm bảo tính dự phòng và độ tin cậy cao. Đây là nền tảng phổ biến được nhiều doanh nghiệp sử dụng để xử lý các khối lượng dữ liệu khổng lồ.
Vì Hadoop được viết bằng Java nên trước khi cài đặt, hệ thống cần được cài đặt Java để đảm bảo hoạt động ổn định. Do đó, trong phần tiếp theo mình sẽ hướng dẫn cách cài đặt Java trước khi tiến hành cài Hadoop trên Ubuntu.
Cách cài đặt Hadoop trên Ubuntu
Để cài đặt Hadoop trên hệ điều hành Ubuntu, bạn cần thực hiện đầy đủ các bước sau. Quá trình bao gồm cài đặt Java, tạo người dùng riêng cho Hadoop, thiết lập SSH, tải và cấu hình Hadoop. Dưới đây là hướng dẫn chi tiết:
Bước 1: Kiểm tra Java đã được cài đặt hay chưa, bạn mở Terminal và nhập lệnh:
java -version
Bước 2: Cập nhật hệ thống – Bạn chạy lần lượt 2 lệnh sau để cập nhật hệ thống:
sudo apt-get update
sudo apt-get install update
Bước 3: Cài đặt Java JDK – Bạn tiến hành cài đặt Java JDK với lệnh:
sudo apt-get install default-jdk
Bạn nhấn Y khi được hỏi để xác nhận cài đặt.
Bước 4: Kiểm tra lại Java – Sau khi cài xong, bạn kiểm tra lại Java bằng lệnh:
java -version
Bước 5: Tạo user riêng để cài Hadoop – Bạn tạo một group tên là hadoop
:
sudo addgroup hadoop
Tạo người dùng mới thuộc group hadoop:
sudo adduser --ingroup hadoop hadoopusr
Khi được yêu cầu nhập mật khẩu và thông tin, bạn có thể để trống bằng cách nhấn Enter liên tục, sau đó xác nhận bằng Y
.
Bước 6: Cấp quyền sudo cho user mới
sudo adduser hadoopusr sudo
Bước 7: Cài đặt SSH
sudo apt-get install openssh-server
Bước 8: Chuyển sang user hadoopusr:
su - hadoopusr
Bạn nhập mật khẩu bạn đã tạo ở bước trên.
Bước 9: Tạo SSH Key
ssh-keygen -t rsa -P ""
Bạn chỉ cần nhấn Enter khi được yêu cầu.
Bước 10: Thêm SSH Key vào danh sách được phép
cat $HOME/.ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys
Bước 11: Kiểm tra SSH
ssh localhost
Bạn nhấn yes
và nhập mật khẩu nếu được yêu cầu, sau đó nhập:
exit
Bước 12: Tải về Hadoop – Bạn tải phiên bản Hadoop 2.9.0 từ trang chủ của Hadoop.
Bước 13: Giải nén file Hadoop – Bạn di chuyển file hadoop-2.9.0.tar.gz vào thư mục mong muốn (ví dụ /Documents) và giải nén bằng lệnh:
sudo tar xvzf hadoop-2.9.0.tar.gz
Bước 14: Di chuyển Hadoop vào thư mục đích
sudo mv hadoop /usr/local/hadoop
Bước 15: Cấp quyền cho user Hadoop
sudo chown -R hadoopusr /usr/local
Bước 16: Cấu hình biến môi trường trong file .bashrc – Bạn mở file:
sudo gedit ~/.bashrc
Bạn thêm vào cuối file các dòng sau (chỉnh sửa đúng đường dẫn Java nếu cần):
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"
Bạn lưu lại và chạy lệnh sau để áp dụng cấu hình:
source ~/.bashrc
Bước 17: Kiểm tra phiên bản Java – Bạn truy cập vào thư mục:
cd /usr/lib/jvm
ls
Sau đó kiểm tra tên thư mục chứa phiên bản Java.
Bước 18: Cấu hình file hadoop-env.sh – Bạn mở file:
sudo gedit /usr/local/hadoop/etc/hadoop/hadoop-env.sh
Tìm dòng export JAVA_HOME=...
và chỉnh sửa hoặc thêm dòng sau:
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64
Bước 19: Cấu hình core-site.xml – Bạn mở file:
sudo gedit /usr/local/hadoop/etc/hadoop/core-site.xml
Bạn chèn nội dung sau vào trong thẻ <configuration>
:
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
Bước 20: Cấu hình hdfs-site.xml – Bạn mở file:
sudo gedit /usr/local/hadoop/etc/hadoop/hdfs-site.xml
Bạn chèn nội dung sau:
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/usr/local/hadoop_tmp/hdfs/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/usr/local/hadoop_tmp/hdfs/datanode</value>
</property>
Bước 22: Cấu hình mapred-site.xml – Bạn sao chép file template và đổi tên:
sudo cp /usr/local/hadoop/etc/hadoop/mapred-site.xml.template /usr/local/hadoop/etc/hadoop/mapred-site.xml
Sau đó mở file:
sudo gedit /usr/local/hadoop/etc/hadoop/mapred-site.xml
Thêm nội dung:
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
Bước 23: Tạo thư mục lưu trữ dữ liệu Hadoop
sudo mkdir -p /usr/local/hadoop_space
sudo mkdir -p /usr/local/hadoop_space/hdfs/namenode
sudo mkdir -p /usr/local/hadoop_space/hdfs/datanode
Cấp quyền:
sudo chown -R hadoopusr /usr/local/hadoop_space
Để chạy Hadoop, bạn thực hiện theo các bước sau:
- Format NameNode:
hdfs namenode -format
- Khởi động hệ thống DFS:
start-dfs.sh
- Khởi động YARN:
start-yarn.sh
- Kiểm tra các tiến trình Hadoop:
jps
Kết quả mong muốn: SecondaryNameNode
, NodeManager
, ResourceManager
, NameNode
, DataNode
, jps
.
- Truy cập giao diện quản trị Hadoop:
http://localhost:50070
Nếu hiển thị được giao diện Hadoop nghĩa là bạn đã cài đặt thành công.
Vietnix – Đơn vị cung cấp dịch vụ lưu uy tín, tốc độ cao
Vietnix – Nhà cung cấp dịch vụ lưu trữ chất lượng cao, mang đến giải pháp thuê VPS với hiệu năng mạnh mẽ, đảm bảo tốc độ truy cập nhanh và ổn định. Với VPS Linux tại Vietnix, bạn dễ dàng tùy chỉnh hệ thống, quản lý linh hoạt và vận hành mượt mà kể cả trong môi trường tải cao. Hệ thống backup tự động, phân quyền chặt chẽ cùng khả năng mở rộng linh hoạt giúp tối ưu chi phí và tăng cường bảo mật cho mọi nhu cầu sử dụng. Liên hệ ngay để được tư vấn chi tiết!
Thông tin liên hệ:
- Hotline: 18001093
- Email: sales@vietnix.com.vn
- Địa chỉ: 265 Hồng Lạc, Phường 10, Quận Tân Bình, Thành Phố Hồ Chí Minh.
- Website: https://vietnix.vn/
Câu hỏi thường gặp
Vì sao nên chọn Ubuntu thay vì CentOS hoặc Debian để cài đặt Hadoop trong môi trường học tập và thử nghiệm?
Ubuntu là lựa chọn tốt để cài đặt Hadoop trong môi trường học tập và thử nghiệm vì:
– Dễ cài đặt: Ubuntu cung cấp hướng dẫn chi tiết và đơn giản hóa quá trình cài đặt Hadoop.
– Hỗ trợ cộng đồng mạnh mẽ: Cộng đồng Ubuntu rộng lớn giúp giải quyết nhanh chóng các vấn đề gặp phải.
– Tương thích cao: Ubuntu luôn hỗ trợ các phần mềm mới nhất, giảm thiểu sự cố tương thích.
– Quản lý gói thuận tiện: Hệ thống APT giúp cài đặt và quản lý phần mềm nhanh chóng.
So với CentOS và Debian, Ubuntu dễ sử dụng hơn, với tài liệu hướng dẫn rõ ràng, phù hợp cho mục đích học tập và thử nghiệm.
Có nên sử dụng Docker để cài đặt Hadoop trên Ubuntu? Ưu và nhược điểm?
Việc sử dụng Docker để cài đặt Hadoop trên Ubuntu có những ưu và nhược điểm:
Ưu điểm:
– Cài đặt nhanh: Docker giúp cài đặt Hadoop dễ dàng và nhanh chóng.
– Di động và tách biệt môi trường: Dễ dàng triển khai trên nhiều máy chủ, tránh xung đột phần mềm.
– Quản lý và mở rộng linh hoạt: Docker hỗ trợ quản lý container Hadoop và dễ dàng mở rộng.
– Tiết kiệm tài nguyên: Docker chạy nhẹ, tiết kiệm tài nguyên hơn máy ảo.
Nhược điểm:
– Hiệu suất thấp hơn: Docker có thể giảm hiệu suất so với cài đặt gốc, đặc biệt với tác vụ đòi hỏi tài nguyên cao.
– Cấu hình mạng phức tạp: Việc cấu hình mạng giữa các container có thể gặp khó khăn.
– Khó khăn trong bảo trì: Quản lý và xử lý sự cố có thể phức tạp hơn trong môi trường container.
– Không phù hợp sản xuất quy mô lớn: Docker không phải là lựa chọn tối ưu cho môi trường sản xuất với yêu cầu hiệu suất cao.
Lời kết
Qua bài viết này, bạn đã nắm được cách cài đặt Hadoop trên Ubuntu một cách chi tiết và rõ ràng. Việc triển khai Hadoop trên hệ điều hành Ubuntu không chỉ giúp bạn làm quen với môi trường phân tán mà còn cung cấp nền tảng vững chắc để phát triển các dự án Big Data. Dù bạn là người mới bắt đầu hay đang tìm kiếm một giải pháp học tập, Ubuntu luôn là sự lựa chọn lý tưởng. Cảm ơn bạn đã theo dõi bài viết!