Thuật toán lọc thư rác của Gmail và Outlook là một bí mật được bảo vệ chặt chẽ, nhưng dựa trên các thông tin công khai, nghiên cứu và thử nghiệm, chúng ta có thể hiểu được những yếu tố chính và kỹ thuật mà chúng sử dụng:
I. Các yếu tố cốt lõi của thuật toán lọc thư rác:
Cả Gmail và Outlook đều sử dụng một hệ thống lọc đa lớp phức tạp, kết hợp nhiều yếu tố để xác định xem một email có phải là thư rác hay không. Những yếu tố cốt lõi bao gồm:
1. Reputation (Uy tín):
IP Address Reputation:
Địa chỉ IP của máy chủ gửi thư có lịch sử gửi thư rác hay không? Các danh sách đen (blacklist) như Spamhaus, Barracuda, SORBS liên tục theo dõi và cập nhật các địa chỉ IP có dấu hiệu gửi thư rác.
Domain Reputation:
Tương tự như IP, tên miền gửi thư cũng được đánh giá uy tín. Tên miền mới, hoặc tên miền có lịch sử gửi thư đáng ngờ sẽ bị đánh giá thấp.
Sender Reputation:
Uy tín của người gửi (sender) được xây dựng dựa trên hành vi của người nhận đối với các email trước đây. Nếu người nhận thường xuyên đánh dấu email từ một người gửi là thư rác, uy tín của người gửi đó sẽ giảm.
Authentication:
Xác thực email (SPF, DKIM, DMARC) là yếu tố quan trọng để chứng minh rằng người gửi là người mà họ tuyên bố là. Việc thiếu hoặc cấu hình sai các bản ghi này sẽ làm giảm uy tín.
2. Content Analysis (Phân tích nội dung):
Keyword Analysis:
Phân tích các từ khóa và cụm từ thường xuất hiện trong thư rác (ví dụ: “miễn phí”, “giảm giá”, “khẩn cấp”, “thuốc”).
Phrase Analysis:
Phân tích các cụm từ có cấu trúc ngữ pháp và ngữ nghĩa đáng ngờ.
Link Analysis:
Kiểm tra các liên kết trong email:
Liên kết có dẫn đến các trang web độc hại hoặc lừa đảo không?
Liên kết có được rút gọn (shortened) để che giấu đích đến không?
Liên kết có khớp với văn bản hiển thị không (link masking)?
Image Analysis:
Phân tích hình ảnh để tìm kiếm các nội dung đáng ngờ (ví dụ: logo của các công ty lớn bị sử dụng trái phép, văn bản quảng cáo được nhúng trong hình ảnh để tránh bộ lọc văn bản).
Attachment Analysis:
Phân tích các tệp đính kèm để tìm kiếm virus, malware, hoặc các tập tin thực thi nguy hiểm.
HTML Analysis:
Phân tích cấu trúc HTML của email, tìm kiếm các kỹ thuật che giấu nội dung hoặc chèn mã độc.
3. User Interaction (Tương tác của người dùng):
Spam Reports:
Số lượng người dùng đánh dấu email là thư rác. Đây là một trong những tín hiệu mạnh nhất để thuật toán học hỏi.
Deletion Without Reading:
Nếu email bị xóa ngay lập tức mà không được mở, nó có thể bị coi là thư rác.
Moving to Spam Folder:
Di chuyển email vào thư mục thư rác.
Moving out of Spam Folder:
Di chuyển email từ thư mục thư rác vào hộp thư đến (inbox) cho thuật toán biết rằng email đó không phải là thư rác.
Marking as “Not Spam”:
Đánh dấu email là “Không phải thư rác” giúp cải thiện độ chính xác của bộ lọc.
Replying to Email:
Phản hồi email cho thấy rằng người dùng tương tác với người gửi và có khả năng cao là email đó không phải là thư rác.
4. Heuristics (Các quy tắc kinh nghiệm):
Email Formatting:
Kiểm tra các lỗi chính tả, ngữ pháp, định dạng không chuẩn.
Subject Line:
Phân tích tiêu đề email để tìm các cụm từ gây hiểu lầm hoặc lừa đảo.
Sending Volume:
Nếu một tài khoản email gửi một lượng lớn email trong một khoảng thời gian ngắn, nó có thể bị coi là spam.
Recipient List:
Nếu một email được gửi đến một danh sách lớn các địa chỉ email không tồn tại hoặc không hoạt động, nó có thể bị coi là spam.
5. Machine Learning (Học máy):
Cả Gmail và Outlook đều sử dụng các mô hình học máy phức tạp để phân tích email và xác định xem chúng có phải là thư rác hay không. Các mô hình này được đào tạo trên một lượng lớn dữ liệu (bao gồm cả email được đánh dấu là thư rác và email không phải là thư rác) và liên tục được cập nhật để cải thiện độ chính xác.
Supervised Learning:
Mô hình được đào tạo với dữ liệu đã được gắn nhãn (spam/non-spam).
Unsupervised Learning:
Mô hình tìm kiếm các mẫu và cụm trong dữ liệu mà không cần nhãn.
Reinforcement Learning:
Mô hình học hỏi từ phản hồi của người dùng (ví dụ: khi người dùng đánh dấu email là thư rác hoặc không phải thư rác).
II. Sự khác biệt (ước tính) giữa Gmail và Outlook:
Mặc dù cả Gmail và Outlook đều sử dụng các kỹ thuật tương tự, nhưng có thể có một số khác biệt nhỏ trong cách họ triển khai và ưu tiên các yếu tố khác nhau:
Gmail:
Tập trung vào Machine Learning:
Gmail được cho là sử dụng học máy nhiều hơn, đặc biệt là các mô hình deep learning để phân tích nội dung email.
Chặn thư rác quyết liệt:
Gmail thường có xu hướng chặn thư rác một cách quyết liệt hơn, đôi khi dẫn đến việc bỏ sót một số email hợp lệ (false positives).
Phân loại email:
Gmail có tính năng phân loại email (ví dụ: Primary, Social, Promotions, Updates, Forums), giúp người dùng dễ dàng quản lý hộp thư đến của họ.
Outlook:
Tập trung vào Reputation:
Outlook có xu hướng dựa nhiều hơn vào uy tín của người gửi và các danh sách đen.
Ít “nghiêm ngặt” hơn:
Outlook có thể ít “nghiêm ngặt” hơn Gmail trong việc chặn thư rác, dẫn đến ít false positives hơn nhưng có thể có nhiều thư rác hơn trong hộp thư đến.
Tích hợp chặt chẽ với Microsoft Services:
Outlook tích hợp chặt chẽ với các dịch vụ khác của Microsoft, chẳng hạn như Exchange và Office 365, và có thể sử dụng thông tin từ các dịch vụ này để cải thiện độ chính xác của bộ lọc thư rác.
III. Làm thế nào để tránh bị đánh dấu là thư rác:
Nếu bạn là một người gửi email hợp pháp, bạn có thể thực hiện các bước sau để tránh bị đánh dấu là thư rác:
1. Xây dựng và duy trì uy tín tốt:
Sử dụng địa chỉ IP và tên miền có uy tín tốt.
Xác thực email của bạn bằng SPF, DKIM và DMARC.
Không mua danh sách email.
Chỉ gửi email cho những người đã đồng ý nhận email từ bạn.
Cung cấp một cách dễ dàng để người nhận hủy đăng ký.
2. Tạo nội dung email chất lượng:
Viết tiêu đề rõ ràng và chính xác.
Sử dụng ngôn ngữ phù hợp và tránh các từ khóa spam.
Không sử dụng liên kết rút gọn hoặc link masking.
Kiểm tra chính tả và ngữ pháp cẩn thận.
Cung cấp giá trị cho người nhận.
3. Theo dõi và phản hồi:
Theo dõi tỷ lệ mở và tỷ lệ nhấp của bạn.
Phản hồi các khiếu nại và yêu cầu hủy đăng ký nhanh chóng.
Sử dụng vòng lặp phản hồi (feedback loop) để theo dõi tỷ lệ spam.
Kết luận:
Thuật toán lọc thư rác của Gmail và Outlook là một hệ thống phức tạp và liên tục phát triển. Hiểu các yếu tố chính mà thuật toán sử dụng và thực hiện các biện pháp phòng ngừa có thể giúp bạn cải thiện khả năng email của bạn đến được hộp thư đến của người nhận. Quan trọng nhất là tập trung vào việc xây dựng uy tín tốt và cung cấp nội dung có giá trị cho người nhận.
http://ezproxy.lib.uh.edu/login?url=https://careerbuilding.net/career-builder/