Opis projektu
Internet rozwija się w niewiarygodnie szybkim tempie i jest już obecny w niemal wszystkich dziedzinach naszego życia. Społeczeństwo, wykorzystując Sieć do pracy i rozrywki, musi również sprostać zagrożeniom pojawiającym się w cyberprzestrzeni.
Celem projektu SMC, finansowanego przez Narodowe Centrum Badań i Rozwoju (nr kontraktu 0079/R/T00/2010/11), jest opracowanie metody oraz prototypu narzędzia, umożliwiającego integrację danych oraz informacji pochodzących ze zróżnicowanych źródeł internetowych dla ochrony cyberprzestrzeni poprzez wykrywanie zagrożeń, które manifestowane są w tych źródłach. W celu wykrywania zagrożeń w cyberprzestrzeni, w projekcie SMC monitorowane są ustrukturyzowane i nieustrukturyzowane zasoby płytkiego i głębokiego Internetu. Zintegrowane dane i informacje filtrowane są w celu wystąpienia nieprawidłowości związanych z wystąpieniem zagrożenia.
Założenia opracowywanej metody i prototypu narzędzia
- Źródłem informacji dla systemu są ogólnodostępne zasoby (np. artykuły i komentarze na stronach www, posty na forach dyskusyjnych, ogłoszenia) pochodzące z Internetu płytkiego oraz głębokiego. Projekt przewiduje także przetwarzanie danych słabo ustrukturyzowanych będących tekstem w języku naturalnym.
- Przetwarzane przez system dane pochodzą z wielu źródeł, charakteryzujących się różnym stopniem ustrukturyzowania treści.
- Zdefiniowane źródła są stale monitorowane w celu wykrycia treści, mogących świadczyć o wystąpieniu poszukiwanego zagrożenia.
- Informacje o cechach konkretnej klasy zagrożenia przechowywane są w postaci metaprofili zagrożeń, które umożliwiają zdefiniowanie treści do pozyskania z monitorowanych źródeł.
- Profile zagrożeń są budowane i podlegają ewolucji automatycznie z wykorzystaniem zdefiniowanych przez specjalistów reguł.
- Udział specjalistów dziedzinowych jest niezbędny jedynie podczas definiowania metod działania systemu, zamiast w procesie monitorowania wystąpienia określonej klasy zagrożeń.
Unikalne możliwości proponowanego rozwiązania
- Ekstrakcja informacji z tekstów słabo ustrukturyzowanych, np. serwisów społecznościowych, portali aukcyjnych.
- Integracja pozyskanych informacji pochodzących z różnych źródeł, zarówno ogólnodostępnych źródeł internetowych, jak i wewnętrznych baz danych.
- Automatyczne wykrywanie zagrożeń manifestujących się w monitorowanych źródłach.
- Wykrywany rodzaj zagrożenia uzależniony jest jedynie od zdefiniowanych przez ekspertów reguł budowania profilu. Tym samym rozwiązanie jest uniwersalne i może służyć do wykrywania różnych zagrożeń.
Komponenty systemu