Mianem spamu określa się niepożądane przesyłki poczty elektronicznej, dostarczane najczęściej w ramach tzw. marketingu bezpośredniego. Pierwszą przesyłkę poczty elektronicznej sklasyfikowano jako spam w roku 1994. Dotyczył on promocji loterii w Stanach Zjednoczonych. Od tamtej pory spam przeszedł znaczną ewolucję. W miarę upowszechniania poczty elektronicznej stał się poważnym problemem biznesowym.
Spam to duże utrapienie zarówno dla użytkowników indywidualnych, jak i dużych organizacji. W miarę wzrastania liczby spamu, rośnie też czas poświęcany na przeglądanie poczty i wykreślanie spamu, nie wspominając już o zajmowaniu pasma w sieci czy pamięci serwerów pocztowych.
Pomimo stosowania zaawansowanych technologii antyspamowych, spamerzy konsekwentnie wyprzedzają o krok produkty projektowane do utrudniania im życia. Trzeba założyć, że dopóki wysyłanie niechcianej poczty będzie działaniem opłacalnym, dopóty będą oni poszukiwać sposobów obchodzenia filtrów antyspamowych niezależnie od tego, jak będą wymyślne.
Spam oparty na poczcie HTML wypiera spam tekstowy. W takim spamie treść można zawrzeć po prostu w obrazku, z którym nie poradzą sobie żadne filtry tekstowe.
Przykładem sztuczek spamerów jest też prosta technika stosowana do omijania filtrów słownikowych - wynajdywanie synonimów słów kluczowych blokujących niechcianą pocztę, np. nazw chemicznych lub własnych rozmaitych medykamentów zamiast nazw markowych.
Legislacja w zakresie walki z tym zjawiskiem w pewnym stopniu pomaga łagodzić ten problem, ale nie należy mieć złudzeń, że wyeliminuje go całkowicie. Pozostaje więc stosowanie różnorodnych filtrów poczty elektronicznej eliminujących spam przed wejściem do skrzynki pocztowej.
W ograniczaniu spamu drogą prawną istnieją dwa podstawowe problemy - silne lobby marketingu bezpośredniego i trudności w egzekwowaniu takiego prawa. Prowadzący marketing bezpośredni zainteresowani są takim prawem, które jednak umożliwi im kontakt z klientem. W rezultacie w tę lukę wcisną się również spamerzy.
Filtrowanie należy uznać jednak tylko za „środek leczący objawy”, potrzebne są więc także efektywne sposoby egzekwowania przepisów prawnych. Jeżeli nawet odpowiednia legislacja ograniczy zjawisko spamu, to filtrowanie w sieci nadal będzie niezbędne, choć w dużo mniejszym zakresie i mniejszych kosztach.
Głównym czynnikiem podtrzymującym istnienie spamu jest to, że jego nadawcy praktycznie nie ponoszą kosztów zwiększania wolumenu wysyłanych przesyłek pocztowych. Spamerzy różnią się tu od telemarketerów - ci ostatni ponoszą niemałe koszty indywidualnych połączeń telefonicznych, podczas gdy koszt wysyłki masowej poczty praktycznie jest stały i nie zależy od liczby adresatów. Każdy odbiorca rosnącego strumienia spamu płaci w ten czy inny sposób za ten problem. Może być to koszt straconego czasu na przeglądanie niechcianej poczty, zajęte pasmo sieci czy przestrzeń dyskowa.
Użytkownik domowy może nie odczuwać tego problemu w aspekcie finansowym, związanym z użytkowaniem zasobów czy czasem spędzonym na obsłudze niechcianej poczty, ale przedsiębiorstwa czy organizacje odczuwają to w sposób istotny. Czas tracony przez pracowników na obsługę spamu jest opłacany przez przedsiębiorstwo i oznacza spadek produktywności lub konieczność pracy poza normalnymi godzinami.
Spis treści |
Do walki ze spamem w sieciach przedsiębiorstw stosuje się dedykowane bramy filtrujące, umieszczane zazwyczaj pomiędzy zaporą ogniową a serwerem poczty elektronicznej, i usługi filtrowania antyspamowego poza siecią korporacyjną - na bramie internetowej. Brama może mieć formę oprogramowania lub urządzenia.
Filtrowanie spamu nie zapobiega jednak ponoszeniu kosztów ich transmisji. Koszty te spadają jednak tam, gdzie filtry stosowane są na szeroką skalę, ponieważ liczba potwierdzeń odebrania spamu bywa tak niska, że przestają się opłacać koszty jego wysyłki.
Filtry nieuchronnie wnoszą też dwa typy błędów: fałszywe nierozpoznanie spamu (false negatives), umożliwiające przenikanie spamu do sieci i fałszywe rozpoznanie spamu (false positives), blokujące legalne przesyłki pocztowe.
Najnowsze filtry, oparte na technologiach „samouczenia” zmniejszają prawdopodobieństwo omyłkowego usunięcia lub zablokowania poczty legalnej. Wśród technologii adaptacyjnego filtrowania spamu najbardziej znane są filtry Bayesa i sieci neutronowe, przy czym te pierwsze są częściej spotykane.
Jednak, w odróżnieniu od bardziej ustabilizowanych technologii, jak filtry słownikowe, czarne i białe listy nadawców i metody heurystyczne, dzisiejsze filtry adaptacyjne nie zawsze są proste do implementacji w sieciach korporacyjnych.
Sieci neuronowe wykrywają nowe metody działania spamerów, łącząc techniki samouczenia z metodą fałszywych skrzynek pocztowych w charakterze przynęty.
Wysoka czułość filtra w sposób naturalny zwiększa wskaźnik fałszywych rozpoznań. Podobnie niski wskaźnik fałszywych rozpoznań jest związany zazwyczaj z obniżonym wskaźnikiem rozpoznań właściwych.
Większość produktów antyspamowych można dostroić, zwiększając czułość i zmniejszając liczbę fałszywych rozpoznań. Są dwa podstawowe sposoby strojenia filtrów pocztowych. Pierwszy to progi określające, co jest spamem. Najlepsze produkty oferują całą serię poziomów, często wyrażanych w procentach, określających prawdopodobieństwo, że wiadomość jest spamem.
Drugim sposobem jest zarządzanie białymi i czarnymi listami adresowymi. Z tych dwóch białe są ważniejsze - są to listy nadawców zawsze akceptowanych przez system. Czarne zawierają nadawców spamu.
Filtrowanie oparte na dobrze sporządzanych białych listach charakteryzuje się zazwyczaj niższą liczbą fałszywych rozpoznań.
Nie wszystkie białe listy to listy adresowe. Niektóre produkty pozwalają na tworzenie białych list na podstawie takich elementów, jak zawartość wiadomości. Na taką listę mogą trafić np. nazwy własnych produktów - jeżeli pojawią się one w treści wiadomości, zwłaszcza dostarczanej do działów sprzedaży, filtry kwalifikują je jako legalne. Narzędzia takie są jednak trudne do strojenia i charakteryzują się słabą wydajnością.
Do masowego rozsyłania wiadomości są niezbędne zbiory adresów, pod które przesyłki mają być dostarczane. Spamerzy mają do dyspozycji wiele narzędzi umożliwiających zdobycie nowych adresów. W Internecie można znaleźć narzędzia do automatycznego pobierania adresów poczty elektronicznej ze stron webowych, plików tekstowych i innych śródeł dostępnych online. Narzędzia te pozwalają na zarządzanie listami zgromadzonych adresów pocztowych, eliminując duplikaty, personalizując wiadomości i wykonując inne funkcje.
Szczególnie groźne są metody zbierania adresów pocztowych znane pod nazwą „adresowych żniw” (address harvest). Technika ta jest jedną z najbardziej efektywnych w uzyskiwaniu nowych adresów. Spamer zalewa serwer pocztowy dużą liczbą przesyłek pocztowych ze sfabrykowanymi adresami. Ponieważ protokół SMTP automatycznie odbija przesyłki z niepoprawnymi adresami, adresy tych przesyłek, które nie zostaną odbite, mogą być uważane za aktywne. Takie adresy mogą być następnie dodane do bazy danych i użyte przez spamera przekonanego, że większość wysłanych pod nie wiadomości zostanie odebrana.
W sieci przedsiębiorstwa lub ISP podstawowym problemem stwarzanym przez takie ataki jest angażowanie do ich obsługi zasobów serwera pocztowego, co może prowadzić do znacznego spowolnienia dostarczania właściwych przesyłek pocztowych, a nawet załamania systemu pocztowego. Do zatrzymania ataku typu address harvest można używać usług blokowania spamu, które wykrywają i zatrzymują ataki już na początku. Można także zastosować zaporę ogniową reagującą na tego typu ataki.
Walka ze spamem jest procesem ciągłym. W miarę pojawiania się nowych technik filtrowania spamerzy starają się wynaleźć sposoby ich obejścia.
Podstawowe metody wykrywania spamu są następujące:
To podstawowa forma blokowania spamu. Administrator domeny wpisuje na tzw. czarną listę adresy wszystkich znanych nadawców spamu. Przesyłki pocztowe przychodzące spod adresów znajdujących się na tej liście są uznawane za spam.
Chcąc z kolei zapewnić odbiór poczty od pewnych nadawców, tworzy się tzw. białą listę zawierającą adresy, spod których przesyłki będą zawsze przekazywane.
Metoda ta ma pewne wady. Po pierwsze, jest niewygodna i czasochłonna w przypadku czarnych list, w przypadku białych zaś wymaga stałego i niezwykle starannego uaktualniania. Po drugie, spamerzy używają często tysięcy różnych adresów do masowego wysyłania poczty, tak więc blokowanie tylko kilku z nich prawdopodobnie nie będzie miało większego wpływu na strumień spamu. Po trzecie, spamerzy nierzadko fałszują swój adres tak, by wskazywać, że poczta przychodzi od legalnego nadawcy. Czarne i białe listy adresowe są rozwiązaniem, które powinno być stosowane w połączeniu z innymi metodami.
Są to listy na poziomie Internetu. Stanowią katalog znanych adresów spamerów oraz domen i są publikowane w sieci - bezpłatnie lub w płatnej subskrypcji (np. Mail Abuse Prevention System - MAPS).
Wiele organizacji uważa te listy za bardzo użyteczne. Jednak może się zdarzyć, że przez pomyłkę znajdą się na nich legalni nadawcy poczty. Z tych powodów mogą cechować się wysokim wskaźnikiem fałszywych rozpoznań, co często kończy się zrezygnowaniem z ich stosowania.
Do niedawna motory heurystyczne były najbardziej efektywną metodą identyfikowania spamu. Posługują się one zbiorem reguł służących do analizowania wiadomości pocztowych pod kątem cech charakterystycznych dla spamu (np. obecność fraz typu „zostań bogatym” czy „nadzwyczajna okazja”). Dobry motor heurystyczny może zawierać setki lub tysiące takich reguł, często powiązanych z odpowiednią punktacją - powiększaną z każdym wykryciem cechy „spamopodobnej”. Motory heurystyczne opierają się na systemie punktacji: im więcej charakterystyk spamowych w wiadomości, tym wyższa punktacja i tym większe prawdopodobieństwo, że jest to spam.
Przez dłuższy czas motory heurystyczne były bardzo efektywne. Jednak od pewnego czasu taktyki spamerów stały się coraz bardziej wymyślne, w związku z czym efektywność tych narzędzi znacznie spadła. Stało się tak przede wszystkim dlatego że reguły te są dostępne poprzez projekty open source również dla spamerów. Dzięki temu używają oni ich do oczyszczania swoich wiadomości przed wysłaniem. Metody heurystyczne są także bardzo pracochłonne - reguły muszą być ciągle uaktualniane wraz z pojawianiem się nowego spamu.
Najbardziej obiecującą metodą walki ze spamem stają się metody statystyczne. Klasyfikacja statystyczna jest dostępna w różnych formach. Najbardziej rozpowszechnioną dzisiaj metodą są filtry Bayesa. Ten typ filtrów oparto na teoretycznych podstawach opracowanych przez XVIII-wiecznego matematyka brytyjskiego Thomasa Bayesa. Prawdopodobieństwo, że wiadomość jest spamem, jest wyliczane na podstawie pewnych wartości liczbowych przydzielanych poszczególnym słowom wiadomości.
Przewaga metod klasyfikacji statystycznej leży w tym, że mogą one być bardzo dokładne i nie wymagają takiej pielęgnacji, jak inne metody antyspamowe. Filtry statystyczne „uczą się” od spamerów ich nowych technik, bez interwencji człowieka.
Filtry Bayesa opierają się na algorytmie klasyfikacji dokumentów. Poczta jest dzielona na dwa stosy - „spam” i „legalna”, z których filtr „uczy się” rozpoznawać spam. Filtr analizuje każdy wyraz w wiadomości i określa, jak często słowo to pojawia się w stosach: „spam” i „legalne”. Jeżeli filtr znajdzie np. wyraz V1AGRA w stosie „spam”, a nie znajdzie takiego wyrazu w stosie „legalne”, to V1AGRA uzyskuje wskaźnik 100% jako słowo związane ze spamem. Wyraz „jest” pojawi się prawdopodobnie z taką samą częstotliwością w spamie i przesyłkach niebędących spamem i - osiągając w ten sposób wskaźnik 50% - stanie się słowem neutralnym. Wyrazy, które pojawiają się w stosie „legalne”, a w stosie „spam” zdarzają się rzadko lub wcale, uzyskują wysoki wskaśnik, jako słowa niezwiązane ze spamem.
W poczcie przechodzącej przez „wytrenowany” filtr Bayesa poszukuje się pewnej liczby słów o najwyższych wskaźnikach - „spam” albo „legalne”. Liczby reprezentujące te słowa są następnie używane do wyliczenia prawdopodobieństwa, czy cała wiadomość jest spamem. Sztuczki takie, jak zamiana „I” w słowie VIAGRA na cyfrę „1”, mogą wprowadzić w błąd prosty filtr słownikowy, ale nie statystyczny filtr Bayesa.
dyby jednak filtr popełnił błąd, oznaczając pocztę legalną jako spam (złe rozpoznanie) lub oznaczając spam jako pocztę legalną (nierozpoznanie), użytkownik końcowy może przesyłać niewłaściwie rozpoznane wiadomości do folderu korekcji. Filtr używa tych folderów do ponownego uczenia się - często z zadekretowaną przez użytkownika częstotliwością. Regularny „trening” filtru zapewnia, że uczy się on automatycznie najnowszych trików spamerów (takich jak nic nieznaczące znaki w wierszu TEMAT i spacje między literami). Filtrowanie może być także personalizowane. Dział zamówień może akceptować różnego rodzaju oferty handlowe jako legalne, gdy dla innych może to być spam.
Kreatywna adaptacja metod statystycznych eliminuje konieczność instalowania oprogramowania po stronie klienckiej.
Sieci neuronowe oparte na algorytmach sztucznej inteligencji są podobne w działaniu do filtrowania za pomocą metod statystycznych (Bayesa) - oprogramowanie uczy się rozpoznawania nowego spamu. Jednak oprogramowanie to rezyduje w ośrodkach dostawców filtrów, a nie na klientach użytkowników. Wsad poczty elektronicznej, używany do uczenia sieci neuronowych, przychodzi z tysięcy fałszywych skrzynek pocztowych założonych przez dostawców w celu wychwytywania spamu. Sprawdzanie olbrzymiej liczby wiadomości pozwala uczącej się maszynie stale nadążać za trikami spamerów.
Jednak, podobnie jak przy oprogramowaniu antywirusowym, produkty oparte na sieciach neuronowych wymagają, aby użytkownicy regularnie je uaktualniali, zazwyczaj raz dziennie.
Polega na używaniu techniki stosowanej także przy wykrywaniu wirusów. Z każdej wiadomości pocztowej jest tworzona suma kontrolna (swoisty „odcisk palca”), którą umieszcza się w bazie danych. W przypadku tej metody kluczowa jest powtarzalność. Jeżeli w bazie danych znajduje się duża liczba takich samych lub podobnych tzw. odcisków palca, oznacza to, że reprezentują one spam. Jedynie spam, który jest wysyłany dużymi partiami, czasami w liczbie milionów, będzie generował z dużą częstotliwością te same sumy kontrolne.
Spamerzy mogą zmniejszać efektywność tej metody przez wtrącanie losowych tekstów lub innych elementów w kluczowe miejsca wysyłanego spamu w celu „zamazania” odcisku palca. Z kolei filtr może być przygotowany do rozpoznawania takich wtrąceń.
To metoda klasyfikacji wiadomości przez firmę specjalizującą się w zwalczaniu spamu. Polega na zakładaniu w Internecie atrap skrzynek pocztowych (przynęt). Jedynym ich przeznaczeniem jest przyciąganie spamu. Poczta, która przychodzi pod te adresy, jest rejestrowana w bazie danych. Firma używająca pułapek zapewnia następnie swoim klientom usługę, która porównuje całą pocztę wchodzącą klienta z bazą danych spamu przechwyconego przez pułapki.
Problemem jest to, że ta metoda jest wyłącznie reaktywna - może wychwytywać i blokować tylko znany spam. Co więcej, wszystkie metody antyspamowe mają okres ważności lub co najmniej punkt szczytowy efektywności, po którego przekroczeniu następuje jej obniżenie. Metoda z pułapką jest stosowana od lat, dlatego spamerzy już dawno odkryli sposoby zmniejszenia jej możliwości do blokowania spamu.
Oferują interesującą metodę kontrolowania spamu. W uproszczeniu zapewniają indywidualnym użytkownikom możliwość (zazwyczaj przez odpowiedni konektor programowy klienta) raportowania rozpoznanych przypadków spamu z powrotem do sieci. Za każdym razem, kiedy odbiorca uzna odebraną przesyłkę za spam, może usunąć ją, przekazując jednocześnie do sieci niezbędne do identyfikacji fragmenty przesyłki w celu zablokowania, jeżeli pojawi się następnym razem w sieci. W ten sposób tworzy się „kolektywną” sieć do walki ze spamem.
Oczywistym problemem w przypadku tej metody jest indywidualne podejście każdego uczestnika do tego, co należy uznać za spam. Sieci te zawierają mechanizm ochrony zarówno przed drakońskim, jak i nadmiernie pobłażliwym kontrolowaniem spamu. Problem jednak pozostaje, ponieważ w praktyce można spodziewać się dużej różnorodności opinii na temat tego, co jest, a co nie jest spamem w sieci współpracujących użytkowników.
Przewaga tej metody nad innymi rozwiązaniami polega na tym, że tego typu sieć działa w czasie rzeczywistym i jest w pełni skalowalna (dzięki architekturze peer-to-peer). Przechwytuje coraz większy odsetek spamu w miarę, jak przybywa użytkowników sieci, wysyłających zwrotnie do niej powiadomienia o spamie.
W zmodyfikowanej wersji tej metody użytkownicy mogą pisać skrypty przesiewcze i dzielić się nimi z innymi użytkownikami za pośrednictwem sieci. Wymaga to jednak od nich pewnej wiedzy technicznej.
Ta metoda kontrolowania spamu jest zmodyfikowaną i znacznie poszerzoną metodą białych list adresowych. Podobnie jak w przypadku zwykłych białych list, jedynie przesyłki od nadawców umieszczonych na specjalnej liście są dopuszczane do skrzynki odbiorczej. Tutaj jednak, aby dopisać nowego nadawcę do listy, musi on być uwierzytelniony. Istnieje sporo sposobów uwierzytelniania, jednak w tym przypadku najbardziej popularnym jest procedura „wezwania”. Gdy wiadomość przychodzi spod adresu niewidniejącego na liście, jest wysyłane wezwanie do nadawcy, informujące, że wiadomość zostanie doręczona jedynie wtedy, gdy nadawca uwierzytelni się, potwierdzając odbiór tego wezwania. Wezwania te są zazwyczaj bardzo proste typu: „przepisz tekst z załączonego obrazka” albo „podaj liczbę elementów zamieszczonych na obrazku”. Jednak ich forma musi gwarantować, że czynności te mogą być wykonane tylko przez człowieka, a nie maszynę. Jeżeli nadawca potwierdzi wezwanie w sposób prawidłowy, jest wpisywany na listę.
Metoda ta jest szczególnie efektywna w blokowaniu spamu wysyłanego automatycznie. Jednak jest uważana za zbyt restrykcyjną, umożliwia bowiem odrzucenie legalnej przesyłki tylko z tego powodu, że była wysyłana przez osobę, która nie mogła odpowiedzieć na wezwanie.
Usługi polegające na identyfikowaniu adresów IP, spod których jest wysyłana masowa poczta elektroniczna.
Usługa jest mechanizmem monitorującym setki tysięcy źródeł poczty elektronicznej w celu określenia, jaki wolumen poczty wysyłanej spod poszczególnych adresów jest legalny, a jaki można uznać za spam. Firma świadcząca usługę gromadzi informacje uzyskane z raportów użytkowników oraz z zestawu przynęt i skrzynek odbiorczych poczty, przeznaczonych do przechwytywania spamu. Usługa tworzy profile monitorowanych źródeł poczty elektronicznej, na podstawie których administrator może decydować o zablokowaniu lub dopuszczeniu poczty z nich pochodzącej. Udostępnia także listę bezpiecznych źródeł, spod których nigdy nie wychodzi spam.
Usługa pozwala na zachowanie odpowiednich proporcji pomiędzy blokowaniem adresów, spod których pochodzi spam, a legalną pocztą przychodzącą do odbiorcy. Aby zapobiec zbyt restrykcyjnemu blokowaniu źródeł poczty, w sposób ciągły monitoruje te źródła i uaktualnia profil adresów IP. I tak, jeżeli adres uważany za źródło spamu nie wysyła niechcianej poczty przez określony czas, to jego profil może zostać zmieniony. Usługa może uaktualniać status adresów IP w regularnych odstępach czasu.
Postępowanie ze spamem po jego identyfikacji jest ważnym mechanizmem filtrów antyspamowych. Podstawowe akcje mogą polegać na etykietowaniu spamu poprzez dodawanie ciągu znaków do wiersza „TEMAT” (np. SPAM) lub nagłówka do wiadomości (np. „X-SPAM: yes”). Klient pocztowy może przechwytywać i usuwać etykietowane wiadomości lub segregować do odpowiednich folderów. Metoda ta dotyczy najniższego poziomu przechwytywania spamu - wiadomość dostaje się na korporacyjny serwer pocztowy i jest identyfikowana oraz obsługiwana przez użytkownika końcowego. Chociaż wszystkie dzisiejsze klienty pocztowe mogą przechwytywać i segregować etykietowane wiadomości do odpowiednich folderów (lub po prostu usuwać), to duże znaczenie w dużych sieciach ma to, aby spam nie wychodził poza serwery pocztowe i nie obciążał użytkownika końcowego.
Blokowanie wiadomości na bramie antyspamowej oznacza w praktyce istnienie mechanizmu kwarantanny. Z chwilą, gdy filtr zidentyfikuje spam, jest on przesyłany do kwarantanny zamiast do skrzynki odbiorcy. Kwarantanna może być personalizowana i każdy z użytkowników może zarządzać swoją „pulą” spamu, tzn. często za pośrednictwem portalu webowego.
Stosuje się też kwarantannę z powiadamianiem - użytkownicy otrzymują pocztą elektroniczną okresowe powiadomienia o spamie do nich kierowanym i mogą wtedy decydować, czy ma być im przekazany.