Crawling

Projekt finansowany ze środków:

Komponent Crawling pobiera dokumenty HTML ze zdefiniowanych źródeł koncentrując się na dokumentach zawierających sygnały o zagrożeniach.
Działanie komponentu rozpoczyna się od pobrania stron z listy początkowych adresów, wskazujących na poszczególne źródła.
Następnie lista adresów jest iteracyjnie rozszerzana o hiperłącza znalezione na poszczególnych stronach i nowe adresy również zostają pobrane.
W celu ograniczenia procesu pozyskiwania dokumentów jedynie do stron istotnych z punktu widzenia celów późniejszego przetwarzania, każdej pobranej stronie w danym źródle przypisana zostaje klasa, określająca strukturę relewantnych linków na tej stronie, za pomocą wyrażeń regularnych oraz XPath.
Przykładowymi klasami stron w źródle stanowiącym forum mogą być np. "wątek" lub "lista wątków".

Pobieranie stron odbywa się w sposób przyrostowy (ang. incremental crawling), tzn. raz pobrane strony odwiedzane są ponownie i, w przypadku wykrycia zmiany w ich zawartości, pobierane są ich aktualne wersje.
Częstotliwość odwiedzin na danej stronie uzależniona jest od prawdopodobieństwa wystąpienia zmiany na stronie.
Dla każdej strony ustalane są parametry rozkładu takiego prawdopodobieństwa na podstawie historii zmian.
Gdy prawdopodobieństwo przekracza graniczną wartość, adres strony zostaje dodany do kolejki i strona zostaje odwiedzona w najbliższym możliwym czasie, po czym parametry rozkładu mogą zostać uaktualnione.
Okres oczekiwania na pobranie strony uzależniony jest od tzw. "polityki grzeczności" -- narzucony jest minimalny odstęp czasowy pomiędzy kolejnymi pobraniami strony z tej samej domeny w celu uniknięcia przeciążenia serwerów WWW.

Pozyskane dokumenty HTML zostają zapisane w odpowiedniej formie w repozytorium plików, a informacje o nich trafiają do bazy danych tworzącej graf powiązań pomiędzy stronami.

SMC - Semantyczny Monitoring Cyberprzestrzeni

Crawling