Ekstrakcja strukturalna

Projekt finansowany ze środków:

Celem ekstrakcji strukturalnej jest przekształcenie dokumentów zebranych ze źródeł internetowych do postaci częściowo ustrukturyzowanej. Oznacza to, że dokument jest dzielony na części i ekstrahowany jest jego główny element (np. treść ogłoszenia na forum) oraz informacje dodatkowe zawarte w dokumencie dotyczące np. czasu jego opublikowania, tematu, oraz szczegółowych danych dotyczących autora - w tym jego pseudonimu, danych kontaktowych i adresowych.
Realizacja tego celu jest możliwa dzięki wykorzystaniu metod ekstrakcji informacji z dokumentów półustrukturyzowanych jakimi są strony internetowe o stabilnej strukturze. W szczególności wykorzystywane są wyrażenia języka XPath pozwalające wyodrębnić części dokumentu oraz transformacje dokumentu z postaci strony w języku HTML do oczyszczonego z błędów dokumentu w języku XML.
Etap ekstrakcji strukturalnej jest etapem wstępnego przetwarzania treści i pozwala zwiększyć skuteczność dalszych etapów ekstrakcji. Np. dzięki wyodrębnieniu informacji o autorze ogłoszenia można z większą precyzją niż przy użyciu wyłącznie metod ekstrakcji leksykalnej (ekstrakcji informacji z tekstu nieustrukturyzowanego) zebrać dane kontaktowe i adresowe. Ekstrakcja strukturalna przyczynia się również do poprawy skuteczności działania całego systemu dzięki odfiltrowaniu treści zupełnie nie związanych z potencjalnym zagrożeniem a występujących w treści dokumentu, takich jak komentarze, reklamy czy elementy nawigacyjne danego źródła internetowego.

SMC - Semantyczny Monitoring Cyberprzestrzeni

Ekstrakcja strukturalna