Tháng 5/2025, vụ kiện chống độc quyền của Bộ Tư pháp Mỹ vô tình hé lộ cách Google thật sự xếp hạng nội dung.
Lần đầu tiên, cộng đồng SEO thấy rõ hơn những tín hiệu đứng sau thứ hạng – từ bộ ABC (Anchors – Body – Clicks) cho đến các mô hình AI như RankEmbed và LLM.
Bài viết này mình tóm lược những điểm cốt lõi nhất giúp hiểu cách Google đánh giá, xếp hạng và “chấm điểm” nội dung trong thời đại AI.
1. Google định nghĩa lại “tín hiệu xếp hạng”
Theo Nayak, một “document” là một trang web (webpage) trong hệ thống lưu trữ của Google.
Google đánh giá mỗi tài liệu dựa trên hàng trăm tín hiệu xếp hạng (ranking signals) – có hai cấp:
-
Raw signals: tín hiệu đơn lẻ (Google có hơn 100 loại).
-
Top-level signals: là sự kết hợp của nhiều raw signals.
Một vài tín hiệu nổi bật gồm:
-
Q*: đo chất lượng nội dung.
-
Navboost: theo dõi hành vi người dùng (click, thời gian ở lại, thiết bị, vị trí) trong 13 tháng gần nhất.
-
RankEmbed: tín hiệu AI chính, được huấn luyện bằng mô hình ngôn ngữ lớn (LLM).
-
PageRank: tín hiệu “cổ điển” về liên kết vẫn còn tác dụng.
Google cũng dùng các công cụ nội bộ như Twiddlers để “xếp hạng lại” kết quả và Debug Interface để xem chi tiết điểm số từng tín hiệu.
Eric Lehman (cựu kỹ sư Google) tiết lộ:
“Navboost không phải là mô hình học máy. Nó chỉ là một bảng dữ liệu khổng lồ ghi lại mỗi truy vấn nhận bao nhiêu lượt nhấp trong suốt 13 tháng qua.”
Tức là, Google không “train” Navboost, mà dùng nó như thống kê hành vi người dùng để điều chỉnh độ tin cậy của kết quả.
3. Từ “Okapi BM25” đến “RankEmbed” – Google tiến hóa thế nào?
Google từng xếp hạng dựa vào BM25 (một công thức truy hồi thông tin cổ điển), sau đó chuyển dần sang học máy:
-
RankBrain (2016) → DeepRank (BERT) → RankEmbed (LLM).
-
DeepRank cho phép “phân rã” tín hiệu AI thành dạng dễ hiểu hơn, kết hợp cùng tín hiệu truyền thống → tạo nên hệ thống lai giữa IR + Machine Learning.
-
Google tránh việc chỉ “dự đoán click” vì dễ bị thao túng và không phản ánh trải nghiệm thật.
4. ABC Signals: Công thức đánh giá mức độ liên quan
Google sử dụng bộ ba A-B-C để tính “Topicality” (tính liên quan theo chủ đề):
-
A (Anchors): Liên kết trỏ đến trang.
-
B (Body): Từ khóa xuất hiện trong nội dung.
-
C (Clicks): Thời gian người dùng ở lại trang trước khi quay lại SERP.
Ba yếu tố này hợp lại thành T* (Topicality Score) – thể hiện mức phù hợp của trang với truy vấn.
Song song đó, Q* (chất lượng) ngày càng quan trọng – giúp chống lại “content farm” và nội dung AI rác. PageRank vẫn là một phần trong điểm Q*.
Các tín hiệu phụ khác:
-
eDeepRank: kết hợp BERT + transformer để minh bạch hơn.
-
BR: tín hiệu “độ phổ biến” dựa trên dữ liệu Chrome.
5. Các tín hiệu “làm tay” vẫn sống tốt
Dù AI chiếm vai trò lớn, đa số tín hiệu của Google vẫn do kỹ sư “làm tay” – nghĩa là họ:
-
Tự chọn ngưỡng dữ liệu.
-
Dùng hồi quy, nhãn người đánh giá (human raters).
-
Tinh chỉnh tín hiệu bằng hàm toán học (như sigmoid).
Lý do? Như HJ Kim nói:
“Nếu một tín hiệu hỏng, Google cần biết sửa ở đâu. Càng tự động hóa bằng AI, càng khó gỡ lỗi.”
Nhờ đó, Google có thể chủ động điều chỉnh tín hiệu khi có vấn đề từ truyền thông hoặc phản ứng người dùng – nhưng việc “cân chỉnh” này rất khó và dễ bị sao chép nếu bị lộ.
6. Search index & dữ liệu người dùng
Chỉ mục tìm kiếm của Google gồm tiêu đề, nội dung thân bài và có các chỉ mục riêng cho từng loại dữ liệu (Twitter, thương mại…).
Các tín hiệu dựa trên truy vấn thường tính ngay tại thời điểm tìm kiếm.
Các tín hiệu dựa trên truy vấn thường tính ngay tại thời điểm tìm kiếm.
“Dữ liệu phía người dùng” (user-side data) nghĩa là dữ liệu tương tác – chứ không phải nội dung do người dùng tạo. Mức độ ảnh hưởng của dữ liệu này khác nhau tùy từng tín hiệu.
7. Tính năng tìm kiếm & Knowledge Graph
Mỗi tính năng (ví dụ: Knowledge Panel, Featured Snippet, People Also Ask) đều có thuật toán riêng.
Google từng thử dự án Tangram (Tetris) để thống nhất nguyên lý xếp hạng giữa các loại tính năng.
Knowledge Graph không chỉ hiển thị thông tin mà còn hỗ trợ hệ thống xếp hạng truyền thống.
Google cũng liên tục điều chỉnh để đảm bảo kết quả chính xác cho các truy vấn nhạy cảm như “Holocaust có thật không?”.
8. LLM – tương lai của Google Search
Google đang tái thiết toàn bộ hạ tầng tìm kiếm, đưa LLM (mô hình ngôn ngữ lớn) vào sâu hơn trong:
-
Diễn giải truy vấn.
-
Tóm tắt kết quả.
-
Xếp hạng & truy hồi thông minh.
Google thử nghiệm “Combined Search Infrastructure” – một hệ thống tích hợp AI vào mọi tầng tìm kiếm (dù phần lớn bị bôi đen trong tài liệu).
Điều đáng chú ý: Google giảm dần lượng dữ liệu huấn luyện, đôi khi chỉ dùng 60–90 ngày gần nhất – miễn là phục vụ tốt nhất cho người dùng.
Tổng kết cho người làm SEO
Những gì lộ ra từ vụ DOJ xác nhận một điều: Google không còn chỉ là công cụ tìm kiếm từ khóa.
Các mô hình RankEmbed, eDeepRank, LLM đang biến Google thành hệ thống “hiểu ngữ nghĩa, hành vi và chất lượng” ở cấp độ con người.
Vì vậy, chiến lược SEO hiện nay không chỉ tối ưu on-page hay backlink, mà phải hướng đến:
-
Trải nghiệm người dùng thực sự (UX + thời gian ở lại).
-
Chất lượng nội dung và độ tin cậy (E-E-A-T).
-
Tối ưu theo cách AI hiểu và đánh giá.