Ekstrakcja leksykalna
Celem ekstrakcji leksykalnej jest zapełnienie bazy profilami zagrożeń. Dokument logiczny jest poddawany analizie semantycznej. Na jej podstawie wydobywane są informacje o tym czy dokument dotyczy kupna lub sprzedaży leku, jakie substancje pojawiają się w ofercie oraz dane identyfikujące ogłoszeniodawcę. Działanie komponentu podzielone jest na trzy fazy. W pierwszej z nich odnajdywane są w tekście wzmianki nazw substancji i ich parametrów (np. ceny, ilości, daty ważności), czasowników świadczących o rodzaju oferty (np. kupno, sprzedaż) oraz informacje identyfikujące ogłoszeniodawcę (np. numer telefonu, adres e-mail). W drugiej fazie odnalezione fragmenty tekstu, są łączone ze sobą zgodnie ze strukturą przyjętą dla profilu zagrożenia. Ostatnim etapem jest normalizacje wybranych atrybutów profilu, pozwalająca na przeprowadzanie w dalszych etapach analiz zagrożeń według substancji pojawiającej się w dokumencie lub rodzaju oferty.