Biểu thức chính quy hay Regex vẫn còn là một khái niệm khá xa lạ đối với những bạn mới tìm hiểu về GA4. Trong bài viết này, Vietnix sẽ hướng dẫn bạn cách áp dụng Regex vào GA4 để phân tích dữ liệu, tạo các đối tượng, phân khúc, các nhóm kênh và sự kiện tùy chỉnh trên công cụ này. Mời bạn theo dõi tại đây.
Regex là gì?
Regex là từ viết tắt của Regular expression (biểu thức chính quy). Đây là thuật ngữ được sử dụng để chỉ một chuỗi văn bản giúp tạo ra các mẫu phục vụ cho quá trình tìm kiếm và matching. Hiện nay, bạn có thể sử dụng Regex trong GA4, nhưng cách thức sử dụng sẽ khác so với Regex trong Universal Analytics.
Khi tìm hiểu về Regex trong GA4, bạn cần phân biệt rõ các cách thức mà công cụ này thực hiện quá trình matching, gồm Partial Match Regex (matching một phần) và Full Match Regex (matching toàn bộ).
Partial Match Regex và Full Match Regex trong GA4
Partial match (matching một phần) là cách thức matching mặc định của Regex trong Universal Analytics. Trong trường hợp này, một Regex sẽ trả về kết quả đúng nếu mẫu Regex đó được tìm thấy ở bất kỳ đâu trong dữ liệu so khớp.
Chẳng hạn như nếu bạn cung cấp mẫu “India“, biểu thức chính quy sẽ khớp với “India”, “Indian”, “Indiana”, “Indianapolis“,… mà không cần phải sử dụng các ký tự đặc biệt (metacharacter).
Ngược lại, full match (matching đầy đủ hay matching chính xác) lại đòi hỏi sự chính xác cao hơn. Tức là, khi sử dụng full match, Regex phải khớp chính xác với dữ liệu thì mới có thể trả về kết quả đúng. Trong Google Analytics 4 (GA4), full match là cách thức hoạt động mặc định của Regex.
Dưới đây là những thông tin mà Google cung cấp về full match. Trong đó, hãy chú ý đến mũi tên màu đỏ – ký tự “.*” xuất hiện tại đó được gọi là metacharacter – ký tự đặc biệt (hay siêu ký tự).
Metacharacter trong Regex được hiểu là ký tự đặc biệt (hoặc siêu ký tự). Đây là những ký tự có ý nghĩa đặc biệt của một biểu thức chính quy. Các metacharacter khác nhau sẽ có một khả năng đặc biệt khác nhau.
Metacharacter ở ví dụ trên là ký tự “.*, ký tự này có chức năng như một ký tự đại diện, tức là nó chỉ khớp với các từ bắt đầu bằng chữ India, chẳng hạn như India, Indian, Indiana, Indianapolis,…
Ngoài ra, còn có rất nhiều metacharacter quan trọng khác mà bạn có thể tìm hiểu tại phần tiếp theo của bài viết.
Các Metacharacter quan trọng trong GA4
Dưới đây chỉ là một số metacharacter quan trọng (chưa phải tất cả), được ưu tiên giới thiệu dựa trên tiện ích tiềm năng của Google Analytics.
- Dấu chấm (.) khớp với một ký tự duy nhất.
- Dấu chấm và dấu sao (.*) khớp với ký tự đại diện.
- Dấu gạch chéo trước (\) được sử dụng để xử lý ký tự tiếp theo theo nghĩa đen nếu ký tự đó là một metacharacter.
- Dấu mũ (^) được sử dụng như một “anchor” chỉ định vị trí đầu tiên của chuỗi.
- Dấu đô la ($) được sử dụng như một “anchor” chỉ định cho vị trí cuối cùng của chuỗi.
- Dấu hỏi (?) được sử dụng để xử lý ký tự trước đó 0 hoặc 1 lần.
- Dấu gạch thẳng (|): HOẶC
Trong quá trình làm việc với Regex, dấu gạch thẳng (|) là ký tự được sử dụng nhiều nhất, và bạn sẽ nhận thấy điều đó qua những nội dung tiếp theo của bài viết.
Cách sử dụng Regex trong công cụ khám phá Exploration GA4
Dưới đây là một ví dụ về Exploration sử dụng bộ lọc Regex. Trong hình, mũi tên màu xanh đầu tiên hiển thị chiều dữ liệu (dimension) về landing page, còn mũi tên màu xanh thứ hai là chiều dữ liệu về tên sự kiện (event name). Trong đó, thước đo được sử dụng là số lần xảy ra sự kiện (event count). Tuy nhiên, báo cáo bên dưới chỉ hiển thị 2 sự kiện thay vì tất cả sự kiện.
Để làm được điều đó, bạn cần sử dụng bộ lọc Regex.
Ở ví dụ này, Vietnix đang lọc theo Event name và chọn loại “matches regex” cho bộ lọc, metacharacter được sử dụng sẽ là loại pipe (|).
Đồng thời, ví dụ trên còn sử dụng dấu mũ (^), theo sau là dấu ngoặc mở để bắt đầu biểu thức. Tiếp theo, bạn sẽ nhập sự kiện đầu tiên (page_view), ký hiệu pipe biểu thị OR (|) và tên sự kiện thứ hai (internal_link_click), cuối cùng là dấu ngoặc đơn đóng.
Một số lưu ý bạn cần quan tâm là:
- Biểu thức này vẫn sẽ hoạt động tốt nếu không có dấu mũ và dấu ngoặc đơn, hay page_view|internal_link_click và ^(page_view|internal_link_click) đều có cách thức hoạt động tương tự nhau.
- Internal_link_click là event tùy chỉnh. Trong trường hợp bạn chưa thiết lập tính năng theo dõi event này trong property của GA4, bạn cần chọn một event khác.
Cách sử dụng Regex để tạo phân khúc và đối tượng
Bạn có thể sử dụng Regex để tạo các phân đoạn (segment) trong GA4.
Tạo các segment là một cách để bạn thu hẹp phạm vi dữ liệu (tạo dữ liệu con trong tổng dữ liệu) để nghiên cứu, phân tích hoặc so sánh với toàn bộ dữ liệu.
Để tạo phân đoạn (segment) tùy chỉnh, bạn cần biết được mình muốn xem User segment, Event segment), hay một Session segment. Trong trường hợp này, bạn sẽ chọn Session segment để tạo segment dựa trên một tập hợp con cụ thể của các phiên mà bạn muốn phân tích.
Để tạo một phân đoạn phiên (session segment), bạn cần xác định các điều kiện để bao gồm (hoặc loại trừ) các phiên cụ thể trong phân đoạn đó. Ở ví dụ dưới đây, Vietnix đang chọn các phiên đến từ Google Organic Search và Bing Organic Search, tức là kết quả sẽ chỉ bao gồm các phiên đến từ lượt tìm kiếm tự nhiên trên Google và Bing.
Khi bạn tạo nhóm traffic với phương pháp trên, bạn cần xem xét chiều dữ liệu trong Session source/medium traffic (Nguồn phiên/lưu lượng truy cập trung bình) để xác định điều kiện cho traffic đó bằng một Regex (biểu thức chính quy).
Phần nội dung trong khung màu đỏ bên dưới chính là một biểu thức, với điều kiện khớp sẽ là matches regex và biểu thức được nhập là google/organic|bing/organic.
Như vậy là bạn đã tạo được một phân đoạn phiên cho các phiên đến từ tìm kiếm ngẫu nhiên trên Google và Bing.
Bạn có thể tạo phân khúc bằng nhiều cách khác nhau, nhưng đa số người dùng đều cảm thấy tạo bằng Regex sẽ đơn giản và nhanh chóng hơn rất nhiều.
Cách sử dụng Regex trong nhóm kênh tùy chỉnh Custom Channel Grouping GA4
Vào đầu năm nay, Google đã công bố việc tạo các nhóm kênh tùy chỉnh (custom channel) trong GA4 cho phép người dùng thay đổi định nghĩa kênh mặc định (default channel) mà Google đã đặt để phân loại traffic thành các kênh.
Một trong số các kênh traffic mặc định đó là Affiliate traffic (Lưu lượng liên kết). Trong ví dụ bên dưới, bạn có thể thấy rằng traffic sẽ được phân vào kênh Affiliates khi medium = affiliate.
Tuy nhiên, điều gì sẽ xảy ra nếu bạn cùng sử dụng cả “affiliate” trong các liên kết affiliate được gắn thẻ UTM? Làm thế nào cả hai biến thể UTM trên đều được đưa vào kênh Affiliates traffic? Đó chính là lúc bạn cần đến nhóm kênh tùy chỉnh. Hình dưới đây là kênh mặc định:
Để thay đổi nhóm kênh, bạn thực hiện theo hướng dẫn sau:
- Bước 1: Đến khu vực bảng quản trị, sau đó chọn Data Settings rồi truy cập vào Channel Groups.
- Bước 2: Click vào Create new channel group màu xanh lam, sau đó cuộn xuống kênh Affiliates và đây là thể mặc định của GA4:
- Bước 3: Bây giờ, bạn chỉ cần thay đổi các điều kiện sao cho phù hợp với nhu cầu của mình. Ở vì dụ này, Vietnix sẽ chọn điều kiện “matches regex” và sử dụng dấu gạch thẳng dọc để bao gồm cả “affiliate” cùng “affiliates” vào trong kênh Medium traffic.
Lưu ý: Bạn không cần quan tâm đến chữ hoa, chữ thường vì nó không ảnh hưởng đến kết quả cuối cùng.
Cách sử dụng Regex để tạo sự kiện GA4 tùy chỉnh
Để tạo sự kiện (event) trong GA4, bạn có thể chọn một trong 2 cách là:
- Cách thứ nhất: Sử dụng Google Tag Manager và tạo thẻ event tag cho GA4 để sau khi được ghép cặp với một trình kích hoạt (proper trigger) phù hợp sẽ gửi dữ liệu event vào GA4.
- Cách thứ hai: Sử dụng tool tạo event được tích hợp trong GA4. Mặc dù cách thứ 2 sẽ không liên quan đến Tag Manager và phương pháp này còn tồn tại một số hạn chế so với cách thứ nhất, nhưng bạn vẫn có thể tham khảo vì sự thuận tiện, nhanh chóng và hiệu quả mà nó mang lại trong quá trình tạo event tùy chỉnh trong GA4.
Bạn có thể sử dụng Regex để tạo event tùy chỉnh trong tool được tích hợp sẵn với GA4. Ngoài ra, bạn cũng có thể sử dụng Regex trong Tag Manager của Google, nhưng trong phạm vi bài viết này, chúng tôi sẽ chỉ tập trung hướng dẫn bạn tạo event tùy chỉnh với cách thứ 2.
Bạn cần chỉ định một số điều kiện nhất định để tạo event tùy chỉnh với tool. Nếu những điều kiện đó phù hợp, bạn có thể tạo thành công một event hoàn toàn mới. Trong hướng dẫn bên dưới, bạn sẽ sử dụng matches regular expression (so khớp biểu thức chính quy). Cụ thể là:
Mẫu event tùy chỉnh GA4 với Regex
Trong hình ảnh bên dưới, bạn có thể thấy một event tùy chỉnh mới có tên là page_view_tag_page. Khi các điều kiện được kích hoạt (khớp) đồng thời, một event tùy chỉnh cùng tên (trong trường hợp này là page_view_tag_page) sẽ được tạo ra và ghi lại trong dữ liệu phân tích.
Mục tiêu cụ thể trong ví dụ bên dưới là tạo một event có tên page_view_tag_page mỗi khi có một khách truy cập xem một trong các trang thẻ (tag page) trên trang Vietnix. Tag page được đề cập đến là tất cả các trang bắt đầu bằng https://vietnix.vn/tag/.
Điều kiện đầu tên cần đáp ứng là event_name bằng với page_view – một điều kiện khá đơn giản. Tuy nhiên, điều kiện thứ 2 sẽ phức tạp hơn và cần có sự hỗ trợ của Regex.
Đầu tiên, bạn cần thay đổi Operator thành matches regular expression (sau đó chọn tham số event cụ thể mà bạn muốn khớp với biểu thức. Cuối cùng, bạn nhập Regex của mình vào trường Value.
Dưới đây là phiên bản đầy đủ:
Vậy, các kỳ tự xuất hiện trong Regex này có ý nghĩa như thế nào?
Điều gì đang xảy ra trong Regex này?
Khi phân tích Regex trong hộp màu đỏ bên dưới, bạn sẽ thấy rằng có một số metacharacter đang hoạt động, bao gồm dấu gạch chéo ngược trước (\) – dùng để biểu thị rằng ký tự tiếp theo phải được xử lý theo nghĩa đen chứ không phải là metacharacter, theo sau đó là dấu chấm và 2 dấu gạch chéo ngược (\).
Thông thường, những ký tự như dấu chấm, dấu gạch chéo ngược (\) ở phía sau có thể được dùng như một metacharacter. Tuy nhiên, trong trường hợp này, chúng được hiểu là ký tự bình thường vì chúng nằm trong chuỗi URL mà bạn muốn so khớp.
Tiếp theo, hãy để ý dấu chấm (.*) ở cuối biểu thức trên. Biểu thức này đã được sử dụng trong ví dụ về India sẽ khớp với những từ bắt đầu bằng India như Indian, Indiana, Indianapolis… Tương tự, https://vietnix.vn/tag/ sẽ khớp với:
- https://vietnix.vn/tag//ga4 -custom-events/
- https://vietnix.vn/tag/ga4-events/
- https://vietnix.vn/tag/ga4-reports/
Có trường hợp nào khác có thể sử dụng Regex trong GA4 không?
Bạn còn có thể sử dụng Regex của GA4 trong nhiều trường hợp khác, chẳng hạn như xác định internal traffic (traffic nội bộ) và tạo danh sách loại trừ tham chiếu của bạn.
Lời kết
Như vậy, bài viết trên đã giúp bạn nắm rõ định nghĩa và cách sử dụng Regex trong GA4. Có thể nói rằng, Regex sẽ là một công cụ hỗ trợ đắc lực trong việc phân đoạn đối tượng, tạo các nhóm kênh, các event tùy chỉnh và theo dõi, phân tích nhóm dữ liệu cụ thể. Cuối cùng, đừng quên để lại comment bên dưới nếu có bất cứ thắc mắc hay câu hỏi nào về Regex trong GA4 để được giải đáp bởi đội ngũ của Vietnix, bạn nhé!