KI Crawler versus Copyrights

PeterSurma · 22. November 2023

Hi all,

man kann sich fragen, ob man als Ersteller von Webseiten tatsächlich seine eigenen Mühen unentgeltlich in den Dienst von AI (KI) Produzenten - heute und in Zukunft - stellen will und stellen muss. Man sollte bedenken: das kann sich ja durchaus auf alles beziehen, was man so erzeugt - auf Texte oder Bilder oder Zeichnungen oder Software oder oder... Da bezüglich AI (KI) weltweit noch keine wirkliche Gesetzgebung existiert, werden in der Zwischenzeit die Copyright-Vermerke auf Websites oder Fotos wohl kaum etwas nützen !

Tatsächlich sperren deshalb heute schon viele Companies (NewYork Times, Reuters, CNN,...) diverse AI crawler explizit von ihren Websites aus:

Major websites are blocking AI crawlers from accessing their content

https://www.axios.com/2023/08/31/major-websites-are-blocking-ai-crawlers-from-accessing-their-content

Auch gibt es natürlich juristische Verfahren von Copyright-Inhabern gegen diverse Netzfirmen (Google, OpenAI,...) , die Content so 'weiterverarbeiten'...

OpenAI hat im August ja tatsächlich schon angekündigt, einen GPTBot ins (heutige) Netz zuschicken, um die zukünftigen Sprachmodelle GPT-4/5 zu trainieren...

Wenn man das nicht so gut findet, was kann man als Privatmensch mit Website - als einfachste Massnahme/n - tun ? Scheint nicht komplett einfach zu sein...

robots.txt file anlegen:

User-agent: *

Disallow: /

Allerdings sagt Google dazu:

Einführung und Leitfaden zu robots.txt-Dateien | Google Search Central | Dokumentation | Google for Developers

Die robots.txt-Datei wird zur Verwaltung des Crawler-Traffics verwendet. In dieser Einführung zu robots.txt erfährst du, was robots.txt-Dateien sind und wie…

developers.google.com

und

Aufnahme in den Google-Suchindex mit „noindex“ blockieren | Google Search Central | Dokumentation | Google for Developers

Das Tag „noindex“ kann Google daran hindern, eine Seite zu indexieren, sodass sie nicht mehr in den Suchergebnissen erscheint. In diesem Leitfaden erfährst du,…

developers.google.com

D.h. man muss mit

in den Headern der Webseiten arbeiten.

Man kann aber auch *NUR* den im August 23 angekündigten ChatGPT-crawler aussperren (nach Angaben des Unternehmens) mit:

User-agent: GPTBot
Disallow: /

Heise sagt hierzu:

Crawler für Training von GPT ausschließen: OpenAI stellt Code für robots.txt vor

Für das Training von KI-Chatbots wie ChatGPT wird das Internet durchpflügt. Wer Inhalte davon ausschließen will, kann das nun über Code in der robots.txt tun.

www.heise.de

Diese (Minimal-) Massnahmen verlassen sich natürlich darauf, dass die Crawler diese Direktiven ernst nehmen und beachten. Ich gehe davon aus, dass OpenAI das (vorerst mal) tut. Ein gesetzlicher oder softwaretechnischer Zwang besteht aber nicht. Auch taugt diese Minimallösung nicht für wirkliche Security, da man sie einfachst umgehen kann wenn man will.

Wenn man harte Security will, muss man zwingend SSL/TLS verwenden, seine Site gegen freien Access sperren und User/Passwörter ausschliesslich an (nachweisliche) Menschen vergeben. Das ist jedoch zugegeben sehr unschön, und schränkt die freie Nutzung durch uns alle im Web sehr ein. Das wäre sehr schade und man will das eigentlich Nicht. ABER eine Entwicklung, die jedes Copyright negiert ist auch nicht gerade das wonach wir alle lechzen....

Gruss, Peter

JogiNet · 22. November 2023

Hallo Peter,

ich bin da durchaus zwiegespalten... eine KI kann ja durchaus für uns alle in vielerlei Hinsicht von Nutzen sein.

Im besten Fall bildet eine KI das Wissen der Menschheit ab - also warum sollte sich eine KI also nicht aus "frei zugänglichen Quellen" (= allem, was Menschen offen zugänglich ist)

informieren dürfen?

Sicher zieht ein KI-Betreiber aus diesem gesammelten Wissen kommerziellen Nutzen. Aber das tut Google auch.

KI ist doch eigentlich quasi das neue Google. Und wer den Google-Crawler aussperrt, der schränkt halt auch die Sichtbarkeit seiner Inhalte ein.

Problematisch wird es m.E. erst, wenn eine KI abseits der Wissens-Sammlung "neue Inhalte" generiert.

Also Bilder oder z.B. auch Musik , die auf geistigem Eigentum Anderer basieren (da gab es gerade ein interessantes Interview mit einem der "ABBAs" im Deutschlandfunk, ich finde das gerade nicht in der Audiothek).

Also MEINE Seiten darf ein KI-Bot gerne crawlen - ob nun gerade diese die KI voranbringen steht auf einem anderen Blatt..

Gruß, Jochen

tliastro · 23. November 2023

Moin Peter,

ich sehe im Moment auch mehr Vorteile darin, eine KI durch das Web streifen zu lassen. Provokant gesagt, der ganze Datenschutzkram hat uns in Deutschland schon genug bei Innovationen, wirtschaftlicher Entwicklung und Digitalisierung der Gesellschaft behindert. Wenn man etwas wirklich absichern muss, dann genügen auch nicht die paar Maßnahmen in Webseiten, da lacht jedes Spy Kid drüber.

Und mal ehrlich, was wäre Captain Kirk ohne die KI an Board ..... Da würde er auf der Brücke stehen und "Computer" rufen und vielleicht würde dann Klassik Radio zu hören sein und die Klingonen würden ihm einen vor den Bug schießen.

Gruß Thomas

stardust3 · 23. November 2023

Und noch was anderes,

immer mehr Content im Web ist doch von ChatGPT und Konsorten erstellt. Läuft hier eine Rekursion ab so langsam? Und wo fürhrt die hin?

Man stelle sich vor so eine KI lernt aus unserem regen Austausch mit dem AstroKnecht...

CS,

Walter

AR_Nr2 · 23. November 2023

Privatsphäre / Datenschutz war ursprünglich (und ist es heute noch) hauptsächlich ein verfassungsrechtlich geschütztes Abwherrecht gegen den Staat / die eigene Regierung, damit die nicht zur Diktatur wird (siehe China).

Bei Abreifen von alten Webseiten ("wayback machine") und jetzt auch bei der KI zu Forschungs-, gesellschaftshistorischen, edukativen und ähnlichen Zwecken sehe ich das ganz entspannt, bei der Wirtschaft ("profit") deutlich weniger.

Das Problem ist eher: wie kann man verhindern, dass die Regierung die Daten bei der Wirtschaft und den Bibliotheken ("webarchive") irgendwie und wann mal abgreift !

Da sollten sich unsere Politiker mal Gedanken drüber machen, wenn sie das uralte Urheberrecht reformieren !

JogiNet · 24. November 2023

Zitat von stardust3

Man stelle sich vor so eine KI lernt aus unserem regen Austausch mit dem AstroKnecht...

Scheinbar alles Schnee von Gestern. Wenn "Project Q" die Weltherrschaft übernimmt, spielt der GPT 3/4 - crawler auch keine Rolle mehr...

Gründe für Altmans Entlassung: Angeblich Durchbruch bei AGI

OpenAI soll einen Durchbruch bei der Entwicklung einer Superintelligenz erreicht haben. Damit soll die Entlassung Sam Altmans zusammenhängen.

www.heise.de

Gruß, Jochen

PeterSurma · 2. Dezember 2023

Zitat von AR_Nr2

Privatsphäre / Datenschutz ...
Wirtschaft (...)
Staat (...)

Ich seh das von der Gewichtung durchaus etwas mehr in Richtung Gefahren aus der global agierenden (Internet-) Wirtschaft verschoben. Du hast natürlich Recht mit dem staatlichen Punkt: tyrrannischer Staat greift auf Daten der Wirtschaft zu... Völlig d'accord. Aber diese Einordnung kann man auch mal 'traditionell' nennen, weil...

Die Frage ist: wie sind hier die Gewichte heute und wie verschieben sie sich gerade (und in die Zukunft). Wir haben Dynamik, nicht wahr ? Durch Transnationalität (sogar Kreieren eigener 'National-Souveränität' innerhalb der USA) entziehen sich Konzerne z.B. zunehmend dem Zugriff durch staatliche Akteure (z.B. Regulierung, Steuergestaltung). Und nur mal in Erinnerung gerufen: im Fall von Demokratien ist Staat = wir alle (hier mal nur als Interessengemeinschaft gemeint). Daher ist Datenschutz auch ein Privatrecht, das den Bürger gegenüber der Wirtschaft schützen will. Ich seh das also nicht so betont negativ wie es oft landläufig kolportiert wird.

Mit KI, die (unsere oder andere) Daten an der Hand hat, wird sich das ganze noch stark intensivieren und (zu ungunsten des Individuums) asymmetrieren.

Klar kann man mit Flugzeugen beides machen, in Urlaub fliegen und Städte bombadieren (dual use). So auch mit KI. Aber wir haben bald KI, die nicht nur für uns, sondern auch (im Profitsinn) gegen uns arbeitet (ebenso dual use). Und KI Riesen schwingen sich da auch ganz non-chalant dazu auf, bereits zu wirtschaftlichen Zwecken genutzte Daten anderer Companies (Zeitungen, Verlage, Museen....) einfach kostenlos zu konsumieren, zu verwursten und gegen höchsten (skalierbaren) Profit weiter (oder an uns oder an Companies zurück) zu verkaufen. Dagegen wehren sich diese Companies schon heute (siehe mein Eingangspost). Es geht hier um Interessen. Companies haben Interessen. Auch Bürger haben Interessen - die im günstigen Fall vom Staat (als unserer Interessenvertretung) durch Gesetze geschützt werden (können/sollten).

Ich stelle nur zur Diskussion (oder zumindest zu bedenken) ob man als kleiner, mickriger Privat-Content-Erzeuger das völlig passiv mittragen will, oder nicht, mindestens aber ob Copyrights nicht auch gegenüber KI-Crawlern durchzusetzen sind. Nur eben wie, wenn es staatlicherseits bislang (schnelle Dynamik, richtig !?) keine Gesetzgebung gibt.

Gruss, Peter

AR_Nr2 · 2. Dezember 2023

Zitat von PeterSurma

Daher ist Datenschutz auch ein Privatrecht, das den Bürger gegenüber der Wirtschaft schützen will

Vollkommen einverstanden ! Ich wollte nicht so verstanden werden, daβ ich das was Google&Co und die Multinationals machen irgendwie akzeptiere oder toleriere. Habe ich, glaube ich, auch nicht gesagt.

Aber Du hast Recht: In meinem Hinterkopf ist irgendwie, daβ die Staaten den Multinationals irgendwann (demnächst oder später) die Reiβzähne ziehen werden. ... Wenn man so sieht, was die OECD macht (z.B. im Steuerrecht). Aber vielleicht ist das ein frommer Wunschtraum !

KI Crawler versus Copyrights

PeterSurma 22. November 2023

Jetzt mitmachen!

Teilen

5 Benutzer haben hier geschrieben