“SoReL-20M” (viết tắt của Sophos-ReversingLabs – 20 Million) là một tập siêu dữ liệu, chứa 20 triệu tệp Windows Portable Executable (.PE), bao gồm 10 triệu mẫu phần mềm độc hại đã được xử lý, với mục tiêu là đưa ra các phương pháp tiếp cận học máy để có khả năng phát hiện phần mềm độc hại tốt hơn.
}
Nhóm Sophos AI cho biết: “Sự hiểu biết và kiến thức về nguy cơ trên không gian mạng sẽ giúp bảo đảm an toàn an ninh mạng tốt hơn. Việc bảo vệ bao gồm cả việc đoán trước hacker định làm gì để chuẩn bị đối phó với những hành động tiếp theo của chúng”.
Cùng với bản phát hành là một tập hợp các mô hình học máy PyTorch và LightGBM dựa trên dữ liệu này.
Không giống như các lĩnh vực khác như ngôn ngữ tự nhiên và xử lý hình ảnh, vốn đã có các bộ dữ liệu công khai rộng lớn như MNIST, ImageNet, CIFAR-10, IMDB Reviews, Sentiment140 và WordNet, việc có được các bộ dữ liệu được gắn nhãn tiêu chuẩn dành cho an ninh mạng lại là một thách thức bởi có các thông tin nhận dạng cá nhân, dữ liệu cơ sở hạ tầng mạng nhạy cảm và sở hữu trí tuệ, chưa kể đến nguy cơ cung cấp phần mềm độc hại cho các bên thứ ba không xác định.
Mặc dù trước đó đã có công cụ phân loại phần mềm độc hại EMBER (hay còn gọi là Endgame Malware BEnchmark for Research) được phát hành vào năm 2018, nhưng kích thước mẫu nhỏ hơn (1,1 triệu mẫu) và chức năng hạn chế của EMBER khiến cho các thử nghiệm bị giới hạn.
SoReL-20M đặt mục tiêu giải quyết những vấn đề này với 20 triệu mẫu PE. Hơn nữa, cách tiếp cận này thúc đẩy mô hình học máy tạo ra các mô tả ngữ nghĩa và xác định thuộc tính quan trọng của các mẫu liên quan.
Việc phát hành SoReL-20M nằm trong chuỗi các sáng kiến của ngành an toàn thông tin trong những tháng gần đây, bao gồm cả sáng kiến của liên minh do Microsoft dẫn đầu và phát hành Adversarial ML Threat Matrix vào tháng 10 để giúp các nhà phân tích phát hiện, phản ứng và khắc phục các cuộc tấn công hệ thống học máy.
Đăng ký liền tay Nhận Ngay Bài Mới
Subscribe ngay
Cám ơn bạn đã đăng ký !
Lỗi đăng ký !
Add Comment