Lỗi BGP là gì mà khiến Facebook, Instagram sập toàn cầu?
Sai sót trong cấu hình router là nguyên nhân khiến hàng loạt dịch vụ của Facebook gặp sự cố, tuy nhiên các yếu tố kỹ thuật chi tiết chưa được chia sẻ.
Tối ngày 4/10 (giờ Việt Nam), các dịch vụ của Facebook gồm nền tảng chính, Instagram, Messenger và WhatsApp bất ngờ không thể truy cập. Sự cố diễn ra trong khoảng 8 tiếng, đến khoảng 7h sáng 5/10, đa số dịch vụ của Facebook đã hoạt động bình thường trở lại.
Sáng cùng ngày, Facebook cho biết nguyên nhân sự cố đến từ sai sót trong lúc tinh chỉnh router điều phối lưu lượng mạng giữa các trung tâm dữ liệu. Các chi tiết kỹ thuật chưa được công bố. Sau khi phân tích, các chuyên gia an ninh mạng từ Cloudflare cho rằng sự cố có thể liên quan đến giao thức định tuyến Internet có tên BGP.
Hàng loạt dịch vụ của Facebook gặp lỗi vào tối 4/10.
BGP như một “bản đồ trên Internet”
Viết tắt của Border Gateway Protocol, BGP về cơ bản là một trong những hệ thống định tuyến lưu lượng, đưa thiết bị của người dùng đến website cần truy cập càng nhanh càng tốt.
Do có nhiều nhà cung cấp dịch vụ Internet, router và máy chủ, có nhiều “con đường” khác nhau để truyền lưu lượng đến địa chỉ đích. Nhiệm vụ của BGP là tìm kiếm, lựa chọn “con đường” tốt nhất để truy cập vào website cần đến.
Trang The Verge mô tả BGP như người cập nhật “tuyến đường” để vẽ bản đồ, hướng dẫn máy tính truy cập các website như YouTube hay Facebook. Tuy nhiên, giữa các website luôn có nhiều điểm đến như máy chủ nhà mạng, dịch vụ trung gian… BGP sẽ chỉ ra những nơi lưu lượng cần đi qua để đến website đích.
Do Internet luôn thay đổi, bản đồ cần được cập nhật để tránh dẫn nhầm đường. Các hệ thống thường “tham khảo” thông tin từ máy chủ khác để sao chép thông tin mới. Nếu một điểm đến gặp lỗi nhưng không được phát hiện, chúng sẽ ảnh hưởng đến bản đồ, khiến lưu lượng không được truyền đến đúng vị trí.
BGP đóng vai trò quan trọng giúp máy tính điều hướng đến website đích.
Video đang HOT
Ví dụ, người dùng cần đến website A, máy chủ website này sử dụng nhà cung cấp mạng B, nhưng máy tính của bạn dùng nhà mạng C. Trong trường hợp này, B và C không thể liên lạc trực tiếp, nhưng nhà mạng C có thể liên lạc với trung gian D, D sau đó liên lạc với E, E có thể liên lạc đến A. Nếu đó là con đường duy nhất, BGP sẽ chọn nó để đưa người dùng đến website A. Nếu cả nhà mạng B và C cùng kết nối đến máy chủ dịch vụ F, BGP sẽ chọn con đường này để tránh đi qua các bên trung gian mà vẫn kết nối người dùng bình thường.
Tuy nhiên, không phải lúc nào tuyến đường ngắn nhất cũng tốt nhất. Có nhiều nguyên nhân BGP chọn con đường dài hơn như chi phí, hoặc chứa máy chủ được yêu cầu truy cập từ trước
Chuyện gì đã xảy ra với Facebook?
Đối với Facebook, công ty này xây dựng hệ thống BGP riêng. Trong thông báo ngày 5/10, Facebook cho biết sự cố xảy ra do “thay đổi cấu hình trên router điều phối lưu lượng mạng giữa các trung tâm dữ liệu… Điều đó ảnh hưởng đến cách giao tiếp của các trung tâm dữ liệu, khiến các dịch vụ ngừng hoạt động”.
Dựa trên thông báo, The Verge cho rằng sự cố có thể xảy ra từ nội bộ Facebook. Tuy nhiên, lỗi này ảnh hưởng đến hàng triệu người dùng trên thế giới. Các chuyên gia nhận định Facebook “bị xóa sổ khỏi Internet” khi điểm đến trên bản đồ biến mất.
Thông báo lỗi trên Facebook vào tối 4/10.
Nhiều lập trình viên đã so sánh BGP với DNS (Domain Name System). Theo mô tả của Cloudflare, DNS là địa chỉ IP của website đích, còn BGP là tuyến đường để đi đến nơi đó.
Từng có 2 sự cố trên quy mô lớn ảnh hưởng đến hoạt động của BGP, bao gồm một ISP của Thổ Nhĩ Kỳ vô tình yêu cầu toàn bộ Internet định tuyến lưu lượng đến server của dịch vụ này vào năm 2004. Đến năm 2008, một ISP tại Pakistan vô tình chặn YouTube trên toàn thế giới. Do các hệ thống BGP thường tham khảo lẫn nhau, toàn bộ người dùng Internet đã bị ảnh hưởng.
Các chuyên gia mạng máy tính ví sự cố khiến Facebook “bị xóa sạch khỏi Internet”.
Bên cạnh chính phủ, một tổ chức lớn cũng có thể vô tình ảnh hưởng đến BGP.
Năm 2018, hacker đã chiếm đoạt lưu lượng truy cập đến Amazon trong gần 2 tiếng, đánh cắp hàng nghìn USD tiền mã hóa Ethereum bằng cách xâm nhập hệ thống BGP của một ISP kết nối với Amazon. Từ đó, lưu lượng truy cập đến Amazon đã bị chuyển hướng đến địa chỉ khác.
Sai sót trong cập nhật BGP cũng có thể ảnh hưởng đến tuyến đường lưu lượng. Đại diện của Cloudflare cho biết đã ghi nhận nhiều bản cập nhật BGP từ Facebook ngay trước khi sự cố xảy ra. Một trong những lãnh đão của Fastly cho biết Facebook đã ngừng cấp tuyến đường lưu lượng đến dịch vụ này.
Ngay cả các website nội bộ của Facebook cũng không thể truy cập. Theo The Verge , một số kỹ sư đã đến trung tâm dữ liệu của Facebook tại California (Mỹ) để khắc phục sự cố.
Sự cố diện rộng của Facebook diễn ra trong nhiều giờ liên tục. Với quy mô lớn và lưu lượng truy cập đông, Facebook cần đảm bảo không xảy ra sai sót khi cập nhật hoặc tùy chỉnh máy chủ, đảm bảo điểm đến không bị xóa khỏi bản đồ để BGP điều hướng lưu lượng chính xác.
Facebook, Instagram đồng loạt ngừng hoạt động
Hàng loạt dịch vụ Facebook không thể truy cập trên mọi các nền tảng và ở nhiều khu vực trên toàn cầu, kéo dài trong suốt 6 tiếng đồng hồ.
"Tôi đang xem livestream game trên Facebook, bỗng nhiên ứng dụng báo mất kết nối và sau đó không thể vào lại được nữa", anh Ngọc Quân (Hà Đông, Hà Nội) nói. "Gần như cùng lúc, tôi nhắn tin trong Messenger nhưng cũng không thể gửi đi và không nhận được tin nhắn nào mới từ bạn bè". Nhiều người dùng khác tại Việt Nam cũng phản ánh tình trạng tương tự.
Thông báo lỗi của Facebook liên quan đến hệ thống tên miền DNS.
Ngoài ra, hai dịch vụ mạng xã hội và nhắn tin khác thuộc sở hữu của Facebook cũng không thể truy cập là Instagram và Whatsapp. Trong khi Instagram liên tục báo không thể kết nối đến máy chủ hoặc không có kết nối mạng, Whatsapp chỉ báo đang kết nối, không thể nhắn và nhận tin.
Trên Downdetector - website chuyên phản ánh sự cố của các dịch vụ Internet, số lượng báo cáo về tình trạng lỗi của các dịch vụ Facebook tăng đột biến. Từ 24 lượt báo lỗi lúc 22h24, mạng xã hội lớn nhất thế giới ghi nhận thêm 130.000 lượt báo sau đó 30 phút. Mức tăng tương tự với các dịch vụ khác là Whatsapp, Instagram và Messenger.
Số lượng bình luận ở trang này cũng tăng theo từng giây và đến từ nhiều quốc gia trên thế giới như Mỹ, Hàn Quốc, Paraguay, Thụy Điển, Canada, Singapore, Mexico, Brazil...
Báo cáo lỗi tăng vọt với Facebook trên Downdetector.
Sự cố bắt đầu từ khoảng 22h40, ảnh hưởng đến mọi nền tảng do Facebook sở hữu. Bên trong Facebook, việc "sập" mạng đã phá vỡ gần như mọi hệ thống nội bộ mà nhân viên đang sử dụng để liên lạc và làm việc. Một số nói họ phải trao đổi qua tài khoản Outlook, nhưng không thể nhận email từ địa chỉ bên ngoài. Nhiều nhân viên phải đăng nhập vào các công cụ thay thế như Google Docs và Zoom.
Trong khi đó, nhiều người dùng lên Twitter để than phiền về tình trạng mất kết nối. Hashtag #DeleteFacebook nhanh chóng có mặt trên mục thịnh hành của mạng xã hội này .
Sự cố cũng ảnh hưởng tới các nền tảng và dịch vụ sử dụng đăng nhập bằng tài khoản Facebook. Niantic, công ty sở hữu game Pokemon Go , cho biết "đang xem xét các báo cáo lỗi liên quan đến đăng nhập và sẽ thông báo khi có thêm thông tin".
Thông báo lỗi của Facebook trên mạng xã hội Twitter.
Trong bài đăng trên Twitter, Facebook App xác nhận ứng dụng Facebook gặp sự cố và "đang nỗ lực để mọi thứ trở lại bình thường nhanh nhất có thể", nhưng không nêu nguyên nhân cụ thể. WhatsApp, Instagram cũng ra thông báo tương tự trên Twitter ít phút sau đó.
The Verge cho biết, các kỹ sư Facebook đã nhanh chóng được cử đến các trung tâm dữ liệu của công ty để kiểm tra và tìm cách khắc phục. Chuyên gia bảo mật Brian Krebs trích nguồn nội bộ rằng sự việc không liên quan tới tấn công mã độc, mà xuất phát từ một bản cập nhật BGP định kỳ bị lỗi, nên xóa sạch thông tin định tuyến DNS mà Facebook cần để các mạng có thể tìm thấy các trang web của nó.
Tình trạng mất kết nối kéo dài 6 tiếng và tới gần 5h sáng nay, vấn đề mới bắt đầu được giải quyết. Tuy nhiên, do ảnh hưởng trên diện rộng, Facebook khuyến cáo việc truy cập có thể chưa thực sự ổn định. Sự cố diễn ra vào tầm trưa ở Mỹ, đúng lúc Giám đốc bộ phận An toàn toàn cầu Antigone Davis của Facebook đang bảo vệ công ty trên CNBC trước cáo buộc của nhân viên cũ rằng mạng xã hội này ưu tiên lợi nhuận thay vì lợi ích của công chúng.
"Facebook, Instagram, WhatsApp và Messenger đang dần trở lại trực tuyến. Xin lỗi về sự gián đoạn hôm nay", Mark Zuckerberg, CEO Facebook, đăng thông điệp lúc 6h sáng (theo giờ Hà Nội).
Đây là sự cố ngừng hoạt động tồi tệ nhất đối với Facebook tính từ năm 2019 khi một vấn đề xảy ra khiến phiên bản web của mạng xã hội này mất kết nối trong 24 tiếng. Vào tháng 1, Facebook lỗi trên toàn cầu, khiến nhiều tài khoản bị thoát khỏi ứng dụng, yêu cầu đăng nhập lại với thông báo "phiên đã hết hạn". Đến tháng 6, Facebook tại Việt Nam và một số nước trên thế giới lại gặp lỗi không hiển thị ảnh.
Các dịch vụ Facebook phục hồi một phần, Zuckerberg nói lời xin lỗi Sau hơn 6 tiếng gặp gián đoạn trên toàn cầu, các dịch vụ của Facebook đã dần phục hồi. CEO Mark Zuckerberg đã phải lên tiếng xin lỗi sau sự cố lịch sử này. Như PV đã đưa tin, toàn bộ dịch vụ của Facebook, bao gồm mạng xã hội Facebook, Instagram, ứng dụng nhắn tin Messenger và WhatsApp, đã đồng loạt gặp...