Just for the record one of the most aggressive are those from #Microsoft & #Bing :
BingBot : 52.167.144.*
BingBot : 40.77.167.*
I had some intense visits from #OpenAI too:
OpenAI : 52.255.111.84-87
...at least from their #useragent
Just for the record one of the most aggressive are those from #Microsoft & #Bing :
BingBot : 52.167.144.*
BingBot : 40.77.167.*
I had some intense visits from #OpenAI too:
OpenAI : 52.255.111.84-87
...at least from their #useragent
#Digitalisierung #KI #Scraper #Wikipedia - 50 Prozent mehr Bandbreite für Multimedia-Abrufe - "Die Online-Enzyklopädie Wikipedia und damit verbundene Bibliotheken haben im vergangenen Jahr einen drastischen Anstieg der Bandbreite für Downloads von Multimedia-Inhalten registriert und schieben das auf Scraper fürs Training von KI. [...] Der Traffic durch die KI-Scraper sei 'beispiellos' und bedeute 'wachsende Risiken und Kosten', schreibt die Foundation noch. Im Gegenzug gebe es gleichzeitig keinen Mehrwert, etwa durch mehr Sichtbarkeit für die Wikipedia und mehr Besuche von Menschen." - von Martin Holland - Eventl. € https://www.heise.de/news/KI-Scraper-belasten-Wikipedia-50-Prozent-mehr-Bandbreite-fuer-Multimedia-Abrufe-10336776.html?wt_mc=sm.red.ho.mastodon.mastodon.md_beitraege.md_beitraege&utm_source=mastodon
@stefanmuelller die robots.txt
ist eine Bitte, KEIN gesetzlich verpflichtender Opt-Out!
Etching point and drypoints
Www.matthieucoulanges.fr
@khobochka guess why I maintain a #Scraper #blocklist?
http://hil-speed.hetzner.com/10GB.bin
as an extra middlefinger!Anybody know anything about the following User Agent strings?
ReplicantReaderBot
: “Replicant” isn’t an entirely unique brand name. I hope this is unrelated to the Replicant LLM chatbots. If it is, is it used to train or is it just a client of the chatbots?ArenaBot/1.0 (+<https://arena.im/bot/;> contact@arena.im)
(page is a 404; is this used to train LLMs or does an LLM use this as a client to fetch data?)SocialBeeAgent
: again, used to train LLMs or a client of an LLM?Mozilla/5.0 (iPhone; U; CPU iPhone OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5 Tencent/BrandProtection
. Does this obey robots.txt or am I gonna have to add another Nginx rule? I normally block brand-protection bots.found another scraper indexer thingy
I'm sure it's not massively known quite yet, so I'll mention them again:
There's a Fedi scraper on multiple instances that's been here for about 6 months now. It won't go away.
Search for "Awakari" on your instance and block/report every account with the same profile pic, as a data scraper.
I've posted about them 7 or 8 times now because they've made multiple instances to ban evade. Those instances include Awakari.com, Awakari.app, and Indy.rest
The owner is Akurilov@mastodon.social
Just thought I should keep mentioning them for the new users that haven't blocked them yet, as Mastodon Gmbh seems content with allowing them to operate from their instance.
A(I)le bekloppt
Drüben im Blog der Uberspace-Betreiber findet sich ein sehr interessanter Artikel dazu, was die (mittlerweile anscheinend komplett hohldrehenden) Bots der AI-Firmen ohne Rücksicht auf Verluste so auslösen:
(…) Zusammenfassend lässt sich sagen, dass nach unserer Beobachtung rund 30 %-50 % aller Anfragen für kleine Seiten inzwischen von Bots generiert werden. Für große Seiten schwankt diese Zahl sogar zwischen 20 % und 75 %. In unseren Augen und mit Ignorieren der robots.txt ist damit inzwischen ein Punkt erreicht, an dem dieses Verhalten von Bots nicht mehr akzeptabel ist und unserem Betrieb schadet.
blog.uberspace.de
Bei meinen unregelmässigen Ausflügen in die Serverlogs meiner eigenen Seiten, aber auch von Auftritten meiner Kunden ist das genauso: Die bot-Zugriffe haben überproportional zugenommen und es ist teilweise wirklich heftig, mit welcher Frequenz und mit wieviel wechselnden IPs die Dinger auf die Site hämmern. >:-(
#Bots #DigitaleSelbstVerteidigung #robotsTxt #Scraper #WildWest
Die AI-Scraper vpn Blogmojo haben immer noch nicht auf meine Mail geantwortet. Ich habe sie freundlich erinnert.
https://jascha.wtf/blogmojo-ai-plagiat-im-jahr-2023-wenn-kuenstliche-intelligenz-texte-klaut/
Another new LLM scraper just dropped: AI2 Bot.
First-party documentation does not list any way to opt-out except filtering the user-agent on your server/firewall. The docs list the following User-Agent to filter:
Mozilla/5.0 (compatible) AI2Bot (+https://www.allenai.org/crawler)
My server logs contained the following string:
Mozilla/5.0 (compatible) Ai2Bot-Dolma (+https://www.allenai.org/crawler)
That appears to be for Ai2’s Dolma product.
159 hits came from 174.174.51.252
, a Comcast-owned IP in Oregon.
I recommend adding ai2bot
to your server’s user-agent matching rules if you don’t want to be in the Dolma dataset; unlike Common Crawl, this seems tailored specifically for training LLMs with few other users.
Ich war Gast im TechnikTechnik Podcast gestern - vielen Dank dafür an @MariusQuabeck@mastodon.rocks! und Kollegen!
Thema: Unbefugte Datennutzung durch KI-Scraper und -Crawler. Die verursachen massive Kosten, halten sich nicht an Regeln und robots.txt und ihre Tech-Billionäre vertreten die Position, all your data is belong to us.
Tools wie #konterfAI erlauben es auch einfachen Webseitenbetreibern, sich zu wehren.
https://techniktechnik.de/189/
@xogium this issue of excessive crawlers is sadly nothing new. @MattKC / #MattKC experienced the same with #ByteSpider, the #Scraper used by #TikTok which results basically in his site getting #DDoS'd despite #ClownFlare being tasked to prevent it!
Personally, I've run out of patience and tolerance for such actions by #GAFAMs and #TechBros and I'm so close to just blocklist their entire ASN as a matter of principle!
And another AI scraping case (also see my previous post)…
AI video startup Runway reportedly trained on ‘thousands’ of YouTube videos without permission
Noo… Really?!
Anthropic’s crawler is ignoring websites’ anti-AI scraping policies…
With regards to the utoots.com #scraper:
1. It currently depends on a Mastodon instance flashist[.]video; it is recommended to block the instance. flashist.(me|health) and previously flashist.(org|vip|live) is also operated by the same person. Ban evasion is to be expected.
2. I wrote a GitHub issue about it, archived at https://archive.ph/8ynKh. However he has chosen to cover up his GitHub profile instead.
Update: https://cyberpunk.lol/@vantablack/112849043193285926 (tldr: it's gone)