Caffeine: Bộ chỉ mục mới của Google

Hôm nay, Google đã chính thức công bố hệ thống lập chỉ mục mới cho cỗ máy tìm kiếm của hãng, có tên là Caffeine. Hãng cho biết hệ thống xử lý mới sẽ cung cấp các kết quả tìm kiếm mới hơn đến 50% so với bộ chỉ mục cũ, và đây cũng là tập hợp nội dung web lớn nhất mà Google cung cấp.

Trong một bài viết trên blog, Google cho hay hãng đã xây dựng lại cỗ máy tìm kiếm để bắt lấy các cập nhật theo thời gian thực, tin tức, hình ảnh, video và nhiều nội dung khác một cách nhanh nhất. Caffeine sẽ liên tục tạo chỉ mục cho các Website. Khi một thông tin nào đó được cập nhật, Caffeine sẽ gộp chung thay đổi đó vào chỉ mục.
Hệ thống chỉ mục cũ của chúng tôi được phân ra làm nhiều lớp (layer), một vài trong số chúng được làm mới ở tần số cao hơn những lớp khác; những lớp chính sẽ cập nhật sau mỗi 2 tuần. Để làm mới một lớp chỉ mục cũ, chúng tôi sẽ phải phân tích lại toàn bộ trang web. Điều đó có nghĩa rằng sẽ có một sự trì hoãn đáng kể từ thời điểm chúng tôi tìm thấy trang web cho đến khi đưa nó hiển thị trên kết quả tìm kiếm.
Với Caffeine, chúng tôi phân tích trang web bằng cách chia chúng thành nhiều phần nhỏ và cập nhật toàn bộ chỉ mục tìm kiếm một cách liên tục. Khi chúng tôi tìm thấy những trang mới, hoặc thông tin mới trong một trang sẵn có, chung tôi có thể gộp vào chỉ mục một cách trực tiếp. Giờ đây bạn có thể tìm kiếm thông tin với độ cập nhật cao hơn bao giờ hết – cho dù nó được tải lên ở đâu và bao giờ.


Caffeine cho phép chúng tôi tạo chỉ mục cho các trang web trên một quy mô khổng lồ. Trên thực tế, mỗi giây Caffeine xử hơn đến hàng trăm ngàn website cùng lúc. Caffeine có thể chiếm gần 100 triệu gigabyte lưu trữ trong một cơ sở dữ liệu và bổ sung các thông tin mới với tốc độ lên đến hàng trăm ngàn gigabyte mỗi ngày.


Nguồn: voz.vn