Po co nam w martwym internecie martwe persony?

Ostatnie informacje dotyczące używania sieci podane przez szefa Cloudflare, Matthew Prince, jasno pokazują w którym kierunku już nasz martwy internet dąży. Pojawiają się takie pojęcia jak „Pay to Crawl”, Cloudflare jawnie walczy z botami, które stosują średnio fajne praktyki przy masowym kopiowaniu treści z sieci a koniec końców, to właśnie 57,6% internetu to boty.

Kto pamięta czasy pierwszych botów, na czacie Onetu czy grając w pierwsze strzelanki ze sztuczną inteligencję, powinien udać się czym prędzej na kolonskopię, dbajcie o swoje zdrowie. Wracając jednak do meritum tematu, po co jest nam w tej chwili internet?

Po to, żeby boty, skanowały treści stworzone przez boty i udostępniały papkę „botową” odbiorcy ostatecznemu, który przeczyta 3 zdania i się zmęczy. Myśląc o erze post-informacji, myślałem, że będziemy najwyżej zawaleni chwytliwymi nagłówkami, tzw. clickbaitem oraz informacjami wyssanymi z palca. Ale nie, doszła do tego jeszcze era halucynacji botowej połączona z jeszcze szybszym udostępnianiem informacji.

Obrzydliwy hipokryta botowy

Czy ja jestem lepszy? Broń boże, byłbym hipokrytą, gdybym stwierdził, że jestem krystalicznie czysty, od wielu lat korzystam ze wszystkich zdobyczy technologii, żeby ułatwić sobie pracę. Więc o ile treści, które sam piszę, staram się pisać z najmniejszym udziałem automatów, to już przewalanie danych i web crawling od 20 lat mamy realizowany przez automaty. Te 2 dekady temu było ciężko ręcznie, a co dopiero teraz.

Pełen raport od Cloudflare można znaleźć na ich stronie: https://radar.cloudflare.com/traffic#bot-vs-human

Co zrobiłem? Czat napisał mi kolejnego webscrappera, gdzie sprawdziłem, najpopularniejsze domeny, które zawierają treści powiedzmy szeroko newsowe i ustawiłem tak polecenia w Pythonie, żeby wyciągał mi z 200 unikalnych treści autora, tejże wiadomości.

Skąd miałem listę? Z Semrusha, udostępniają trendy na swojej stronie: https://pl.semrush.com/trending-websites/pl/all

Czemu ja tak dziwnie podaję te linki, ze mnie taki specjalista SEO jak z koziej dupy trąba. Tylko po to, żeby każdy mógł sobie kliknąć w link i wiedział, gdzie prowadzi, bo zakładam, że z 1 osoba ludzka to przeczyta, nie osoba botowa scrapująca całą stronę.

Martwy internet jest coraz bardziej martwy

Po co? Po to, że trafiłem na jedną stronę, której nazwy nie chciałbym podawać, ze względu, że moim celem nie jest nawalanie w ich działalność, poza tym, jakoś tam się lubimy z chłopakami i nie tylko oni tak robią, więc to trochę nie ich wina. Że cały internet jest martwy i ma martwych piszących, tzn. boty lub redaktorów widmo, którzy mają nadawać autorytet wiadomości. Google zaczął wymagać, to ludzie się dostosowali. Moim zdaniem źle, szczególnie, że Google nie panuje nad własnym AI Overview i naprawdę, korzystanie z wyszukiwarki Google woła coraz mocniej o pomstę do nieba.

Nie dziwi więc coraz szybsze uciekanie do duckduckgo.com : https://www.techbusinessnews.com.au/news/duckduckgo-sees-30-install-spike-as-users-push-back-on-google-ai-search

30% wzrostu przy jakimś szczątkowym udziale w ruchu, to nadal jakaś szczątkowa zmiana, ale widać trend, który obserwuje sobie z miską popcornu od zeszłego roku.

A jak u nas? Według danych Semrush, na kwiecień 2026, KaczkaKaczka jest na 29 pozycji, pomiędzy pudelkiem a porno stroną xhamster. Miło, że w pierwszej kolejności chcemy wiedzieć, co tam u gwiazd, potem chcemy wyszukać informacje pozbawione reklam i algorytmów i botów, a potem sobie bijemy kapucyna do pornoparodii z gwiazdami.

Pornodygresja z życia

Mała dygresja, bawi mnie, że nadal nie traktujemy porno jako coś normalnego, widać, że wszyscy oglądają (pornhub.com jest na 9 pozycji, tuż nad ChatGPT i zaraz pod Wikipedią i Instagramem), ale nadal nie wolno o tym mówić w poważnych badaniach, tekstach i rozmawiać w mediach o tym. Pamiętam jak dziś, studia na mojej ukochanej uczelni, badanie internetu, mój ulubiony Pan Profesor Wiesław Godzic, gdzie wskazałem na ćwiczeniach, że no ale strony porno mają bardzo wysoką oglądalność i jest to medium które konsumujemy. Okolice 2012, więc bez ChatGPT, Instagram nie był tak popularny jak dziś a o Reddit słyszało kilku zapaleńców w Polsce.

Jakież było zdziwienie, że ja śmiem wspominać o tak zakazanym medium, jakim jest pornografia. A jednocześnie Pan Profesor Godzic już w 2001 był redaktorem prowadzącym książki „Podglądanie Wielkiego Brata”. Nie chodzi mi o wywołanie Pana Profesora, uważam go za jednego z najlepszych medioznawców z jakimi spotkałem się w swoim życiu, co nie zmienia faktu, że sposób konsumowania mediów zmienia się tak mocno, jak nigdy do tej pory. Stąd moje zdziwienie, że słowo pornografia to słowo zakazana, ale musiałem o tym napomknąć, patrząc na dane z Semrusha.

Wracając do naszych botów.

Jakie domeny scrapowałem?

Co mnie zaciekawiło, to polityka portalu money.pl, gdzie może i autor jest postawiony przy tekście, ale jednak próżno szukać profilu dotyczącego danej redaktorki lub redaktora, w odróżnieniu od innych, wyżej pozycjonowanych portali.

Dużo portali problem rozwiązało w dosyć prosty i znany sposób, czyli Redaktor [wstaw nazwę portalu] lub Redakcja. Prym wiedzie Bankier PL, na 98 zaczytanych tekstów ze strony głównej, redaktor Bankier.pl pojawił się 55 razy. Więc nie wiemy czy i jak duży udział w tych tekstach miał człowiek, możemy się jedynie domyślać, że ktoś z redakcji go dodał, a ile było udziału pracy ludzkiej, tego musimy dowiedzieć się u źródła.

Portale specjalistyczne lepiej orientują się na SEO?

Gry-online, mogłyby za to już zmienić logo Twittera na stronach swoich redaktorów, ale jako nieliczni – to raczej domena właśnie portali nowocześniejszych i specjalistycznych, a nie newsowych, mają licznik publikacji przy nazwisku autora. Ten kto pamięta liczniki wejść na stronach, wiecie, jak jesteście po kolonoskopii to jeszcze gastroskopia, tak na wszelki wypadek.

Kolejnym sposobem na ukrycie autora, czy to zależnie od jego wstydu pisania dla redakcji, umów lub po prostu zwykłej chęci anonimowości, jest podanie inicjałów imienia i nazwiska. To zabieg, który szczególnie wybija się na portalu WNP.pl.

Ukryty redaktor, przyczajony korektor

Swoich redaktorów lubi ukrywać także portal wpolityce.pl.

To jakie mamy wnioski? Że boty piszą dla nas w największych portalach w Polsce? Bzdura, na bazie takiej małej próbki, możemy jedynie stwierdzić, jak wyglądają i jak dbają o wizerunek swoich redaktorów największe redakcje internetowe w Polsce.

To jak, boty czy ludzie?

Dlatego tak trudno jest ocenić, czy i ile treści jest generowanych przy pomocy tzw. sztucznej inteligencji. Jeżeli próbka 1735 linków w sumie nie daję nam żadnej odpowiedzi, to może dopiero 10 skanów by nam dało, a może po prostu nie znam się na swojej pracy. To co mogę stwierdzić, to jedynie to, że Bankier nie lubi ujawniać nazwisk swoich redaktorów, nawet inicjałów.

Dużo redakcji nie udostępnia danych ustrukturyzowanych w sposób, który byłby przyjazny dla SEO oraz robotów scrapujących.

Najczęściej pojawiające się błędy?

Canonical taki sam jak URL, bezsensowne powtórzenie.
Brak autora.
Kompletny brak keywordsów – to w sumie nie jest błąd, bo keywordsy były ważne jakieś 20 lat temu, ale nadal zostawiłbym kilka tagów dla lepszej segmentacji.
Przesada w keywordsach i kompletnie starożyne podejście do SEO (pozdrawiam zespół Gazetapl)

Kilka porad dla redakcji

Ciekawostką jest także money.pl, który jako autora w swoich tekstach ustawił z automatu „Grupa Wirtualna Polska” zamiast wrzucić go w zakładkę „Publisher”.

Do redakcji Telepolis, macie podwójnie H1, warto zerknąć czemu tak scrappery zaczytują waszą stronę. Tak samo TVN24, to trochę wstyd, żeby H1 była u was 2 razy (-:

Podpowiem, Telepolis, macie pustą H1 na końcu strony, a TVN24, „Redakcja poleca” będzie lepsza jako H2, nie pokazuje na froncie, ale zdecydowanie jako pozostałość kodu.

To internet jest w końcu martwy?

Nie wyszło mi to szybkiego scrapowania najpopularniejszych portali z wiadomości według Semrusha, krótki wycinek około 1700 linków dopiero dotknął problemu, nad którym powinien skupić się ktoś mądrzejszy niż ja. Ale patrząc, że domowym sumptem, udało mi się nabić wejścia, na poziomie, które nie wiem czy przeciętny człowiek nawet spełnia w miesiąc, można powiedzieć, że sam przyczyniłem się do ubijania ludzkiego wymiaru internetu.

Co nas czeka?

Pamiętacie opracowania i streszczenia lektur w których specjalizowało się takie wydawnictwo jak GREG – przyznaje, dawno temu ze szkoły wyszedłem, choć pewnie wielu by powiedziało, że powinienem wrócić. No i właśnie czeka nas to, taki Greg tylko dla wszystkich treści ze stratą dla wszystkich portali. Bo duży model językowy streści nam najważniejsze rzeczy, tak jak robi to aktualnie Google AI Overview i nie będziemy musieli wchodzić już na strony popularnych dzienników czy stacji.

Patrząc na informacje od Search Engine Journal – użytkownicy AI Overview klikają w źródła od 14% (przeciętny użytkownik) nawet do 50% (codzienny użytkownik), no ale nadal to jest spadek ruchu na stronie o blisko 50%, w porównaniu do okresów, kiedy takie cosie jak AI Overview nie istniały.

Czyli, internet jest jednak trochę martwy i powoli się wyludnia. A dla was, którzy boją się tego jak może wyglądać przyszłość dziennikarstwa polecam „Transmetropolitan” i jego obrzydliwego, ale jakże potrzebnego redaktora Spider Jerusalem. Po tej fascynującej lekturze – komiksy w końcu się czyta, możecie wrócić i zadecydować, gdzie jesteśmy i dokąd zmierzamy!

_{*Ten tekst oczywiście, że powstał ze wsparciem dużych modeli językowych aka LLM’s, jednak wszystkie literki, co widać, po błędach, zostały ręcznie wklepane przez moje palce w klawiaturę komputera.}