nrw.social ist einer von vielen unabhängigen Mastodon-Servern, mit dem du dich im Fediverse beteiligen kannst.
Wir sind eine freundliche Mastodon Instanz aus Nordrhein-Westfalen. Ob NRW'ler oder NRW-Sympathifanten, jeder ist hier willkommen.

Serverstatistik:

2,8 Tsd.
aktive Profile

#scraper

1 Beitrag1 Beteiligte*r0 Beiträge heute

#Digitalisierung #KI #Scraper #Wikipedia - 50 Prozent mehr Bandbreite für Multimedia-Abrufe - "Die Online-Enzyklopädie Wikipedia und damit verbundene Bibliotheken haben im vergangenen Jahr einen drastischen Anstieg der Bandbreite für Downloads von Multimedia-Inhalten registriert und schieben das auf Scraper fürs Training von KI. [...] Der Traffic durch die KI-Scraper sei 'beispiellos' und bedeute 'wachsende Risiken und Kosten', schreibt die Foundation noch. Im Gegenzug gebe es gleichzeitig keinen Mehrwert, etwa durch mehr Sichtbarkeit für die Wikipedia und mehr Besuche von Menschen." - von Martin Holland - Eventl. € heise.de/news/KI-Scraper-belas

heise online · KI-Scraper belasten Wikipedia: 50 Prozent mehr Bandbreite für Multimedia-Abrufe
Mehr von Martin Holland
Antwortete im Thread

Anybody know anything about the following User Agent strings?

  • ReplicantReaderBot: “Replicant” isn’t an entirely unique brand name. I hope this is unrelated to the Replicant LLM chatbots. If it is, is it used to train or is it just a client of the chatbots?
  • ArenaBot/1.0 (+<https://arena.im/bot/;> contact@arena.im) (page is a 404; is this used to train LLMs or does an LLM use this as a client to fetch data?)
  • SocialBeeAgent: again, used to train LLMs or a client of an LLM?
  • Mozilla/5.0 (iPhone; U; CPU iPhone OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5 Tencent/BrandProtection. Does this obey robots.txt or am I gonna have to add another Nginx rule? I normally block brand-protection bots.

I'm sure it's not massively known quite yet, so I'll mention them again:

There's a Fedi scraper on multiple instances that's been here for about 6 months now. It won't go away.

Search for "Awakari" on your instance and block/report every account with the same profile pic, as a data scraper.

I've posted about them 7 or 8 times now because they've made multiple instances to ban evade. Those instances include Awakari.com, Awakari.app, and Indy.rest

The owner is Akurilov@mastodon.social

Just thought I should keep mentioning them for the new users that haven't blocked them yet, as Mastodon Gmbh seems content with allowing them to operate from their instance.

#Fediblock#Fedi#Fediverse

A(I)le bekloppt

Drüben im Blog der Uberspace-Betreiber findet sich ein sehr interessanter Artikel dazu, was die (mittlerweile anscheinend komplett hohldrehenden) Bots der AI-Firmen ohne Rücksicht auf Verluste so auslösen:

(…) Zusammenfassend lässt sich sagen, dass nach unserer Beobachtung rund 30 %-50 % aller Anfragen für kleine Seiten inzwischen von Bots generiert werden. Für große Seiten schwankt diese Zahl sogar zwischen 20 % und 75 %. In unseren Augen und mit Ignorieren der robots.txt ist damit inzwischen ein Punkt erreicht, an dem dieses Verhalten von Bots nicht mehr akzeptabel ist und unserem Betrieb schadet.

blog.uberspace.de

Bei meinen unregelmässigen Ausflügen in die Serverlogs meiner eigenen Seiten, aber auch von Auftritten meiner Kunden ist das genauso: Die bot-Zugriffe haben überproportional zugenommen und es ist teilweise wirklich heftig, mit welcher Frequenz und mit wieviel wechselnden IPs die Dinger auf die Site hämmern. >:-(

#Bots #DigitaleSelbstVerteidigung #robotsTxt #Scraper #WildWest

https://webrocker.de/?p=29216

blog.uberspace.deBad Robots

Another new LLM scraper just dropped: AI2 Bot.

First-party documentation does not list any way to opt-out except filtering the user-agent on your server/firewall. The docs list the following User-Agent to filter:

Mozilla/5.0 (compatible) AI2Bot (+https://www.allenai.org/crawler)

My server logs contained the following string:

Mozilla/5.0 (compatible) Ai2Bot-Dolma (+https://www.allenai.org/crawler)

That appears to be for Ai2’s Dolma product.

159 hits came from 174.174.51.252, a Comcast-owned IP in Oregon.

I recommend adding ai2bot to your server’s user-agent matching rules if you don’t want to be in the Dolma dataset; unlike Common Crawl, this seems tailored specifically for training LLMs with few other users.

allenai.orgCrawling notice | Ai2Explanation and technical details of Ai2's web crawler.

Ich war Gast im TechnikTechnik Podcast gestern - vielen Dank dafür an @MariusQuabeck@mastodon.rocks! und Kollegen!
Thema: Unbefugte Datennutzung durch KI-Scraper und -Crawler. Die verursachen massive Kosten, halten sich nicht an Regeln und robots.txt und ihre Tech-Billionäre vertreten die Position, all your data is belong to us.
Tools wie #konterfAI erlauben es auch einfachen Webseitenbetreibern, sich zu wehren.
techniktechnik.de/189/

TechnikTechnikTT189 Gruscheln für Fortgeschrittene - TechnikTechnikAnna hat Foodsharing ausprobiert, Peter hat Android auf seinem Rabbit R1 installiert und Marius hat seine Audible-Hörbücher befreit. Außerdem: Marius muss sich seine Schuhe wieder selber binden, Google schaltet Shortlinks ab, Google Chrome Manifest v3 & uBlock Origin, KI-Datenverwendung, Kosten & konterfAI, Friend.com und vieles mehr!
#KI#crawler#scraper
Antwortete im Thread

@xogium this issue of excessive crawlers is sadly nothing new. @MattKC / #MattKC experienced the same with #ByteSpider, the #Scraper used by #TikTok which results basically in his site getting #DDoS'd despite #ClownFlare being tasked to prevent it!

youtu.be/Hi5sd3WEh0c

Personally, I've run out of patience and tolerance for such actions by #GAFAMs and #TechBros and I'm so close to just blocklist their entire ASN as a matter of principle!

  • It's just that I'd likely have to make an entire dedicaded blocklist and toolup some script to pull a BGP feed or rather IP assignments data for their entire ASN and submit these in #git as branch updates, merge that and block said network in it's entirely as I did with the DoD networks.
www.youtube.com - YouTubeAuf YouTube findest du die angesagtesten Videos und Tracks. Außerdem kannst du eigene Inhalte hochladen und mit Freunden oder gleich der ganzen Welt teilen.

With regards to the utoots.com #scraper:
1. It currently depends on a Mastodon instance flashist[.]video; it is recommended to block the instance. flashist.(me|health) and previously flashist.(org|vip|live) is also operated by the same person. Ban evasion is to be expected.
2. I wrote a GitHub issue about it, archived at archive.ph/8ynKh. However he has chosen to cover up his GitHub profile instead.

Update: cyberpunk.lol/@vantablack/1128 (tldr: it's gone)