Anzeige

Am Puls von Microsoft

Anzeige

KI: Die Klage der New York Times gegen Microsoft und OpenAI ist gut und wichtig

DrWindows

Redaktion
KI: Die Klage der New York Times gegen Microsoft und OpenAI ist gut und wichtig
von Martin Geuß
OpenAI und Microsoft Titelbild


Die New York Times verklagt Microsoft und OpenAI. Inhalte der Zeitung sollen ohne Entschädigung für das Training der KI-Modelle genutzt worden sein. Die Times fordert dafür allerdings nicht in erster Linie Geld, sie will stattdessen, dass die gewonnenen Daten zerstört werden. Die Klage ist wichtig und man kann der New York Times hier eigentlich nur die Daumen drücken.

Wenn man die Vorwürfe liest, die in der Klage aufgeführt werden, denkt man spontan: Ok, erzähl mir was Neues. Denn es werden hauptsächlich die Punkte aufgeführt, die von vielen Autoren und Künstlern bereits kritisiert wurden: Für das Training von ChatGPT, dem Bing-Chat und den anderen Produkten, die OpenAI und Microsoft (oft gemeinsam) entwickeln, werden ungefragt alle im Internet verfügbaren Daten verwendet. In vielen Fällen werden diese dann als eigene Ergebnisse präsentiert, oft sogar ohne Verlinkung auf die Quelle.

Die New York Times führt in der Klageschrift weiter aus, dass teilweise komplette Passagen aus eignen Artikeln in den KI-generierten Antworten auftauchen. Dabei wurden offenbar auch Daten aus Artikeln verwendet, die üblicherweise hinter einer Paywall stehen.

Das Blatt berichtet von einem potenziellen “Milliardenschaden”. Das mag juristischer Gefechtsdonner sein, bezogen auf ein einzelnes Medium ist das sicherlich übertrieben. Für das Internet in seiner Gesamtheit – und dafür steht diese Klage mehr oder weniger stellvertretend – ist das aber eine eher verniedlichende Darstellung.

Kurz nach der Vorstellung des “neuen Bing” Anfang 2023 habe ich einen überaus kritischen Beitrag zu dem Thema veröffentlicht: Kommentar: Das neue Bing hat Killerpotential: Es tötet das freie Internet. Darin habe ich die Problematik aus Sicht derer erläutert, die mit der Bereitstellung von Inhalten im Internet ihren Lebensunterhalt bestreiten. Da ich selbst zu dieser Gruppe gehöre, ist das sicherlich subjektiv geprägt, ich sehe mich bis jetzt allerdings in allen Punkten bestätigt.

Insofern drücke ich der New York Times die Daumen, dass sie mit dieser Klage erfolgreich ist. Nein, ich will diese Technologie nicht sterben sehen, aber ich möchte, dass faire Regeln gelten. Es muss Transparenz darüber herrschen, welche Daten für das Training der KI-Modelle verwendet werden, ebenso müssen Seitenbetreiber die Kontrolle haben und das wirksam verhindern können. Last but not least: Wer Webseiten abgrast, um deren Inhalte in seinen eigenen Produkten zu Geld zu machen, der muss dafür bezahlen, und zwar sowohl grundsätzlich als auch nutzungsbasiert.


Hinweis: Der Artikel wird möglicherweise nicht vollständig angezeigt, eingebettete Medien sind in dieser Vorschau beispielsweise nicht zu sehen.

Artikel im Blog lesen
 
Anzeige
Bisher tut die KI nichts anderes als das Internet meiner Frage entsprechend für mich zu durchsuchen und in einem Absatz mir die passenden Antworten zu präsentieren. Außer das es mir die paar Klicks erspart das selbst zu tun, sehe ich überhaupt keinen Mehrwert. Und ich sehe auch nicht, welches Training dazu nötig wäre. Es ist nichts anderes als eine Suchmaschine, die dem Nutzer eine kurze Zusammenfassung liefert, und die Links unten anhängt.
Das sie Ergebnisse liefert, die normal hinter einer Paywall wären, finde ich natürlich nicht richtig.
Als jemand der sich mit der technischen Materie nicht auskennt, verstehe ich nicht wieso man eine Suchmaschine mit Artikeln trainieren müsste.
 
Wer Webseiten abgrast, um deren Inhalte in seinen eigenen Produkten zu Geld zu machen, der muss dafür bezahlen, und zwar sowohl grundsätzlich als auch nutzungsbasiert.
Bezahlen ja, wenn es sich um Strafzahlungen handelt. Generell würde ich aber einer Unterlassungsklage für bestimmte Methoden zur Datenerfassung der KI vorziehen. Einfach: "Was ist erlaubt und was nicht".

Daten hinter einer Paywall sollen für die Erstellung und der fortlaufenden Existenz einer Internetseite bezahlt werden und zwar von Einzelnutzern.
Musik, Filme und Bücher, die ich gekauft habe, darf ich auch nicht weiter verkaufen. Nichts anderes machen die "KI- Piraten", wenn auch deren Einnahmen anders generiert werden.
 
Zuletzt bearbeitet:
verstehe ich nicht wieso man eine Suchmaschine mit Artikeln trainieren müsste.
Woher nimmt das Ding dann seine Fähigkeiten, Dir Ergebnisse zu präsentieren, die von menschlichen kaum oder gar nicht zu unterscheiden sind? Die programmierten Algorithmen reichen nicht aus, es braucht eine Menge "Futter", um damit etwas Brauchbares zu erzeugen.
Vergleiche es mit einem Menschen. Einem Kleinkind eine Tafel mit dem Alphabet hinzustellen, bedeutet noch lange nicht, dass es damit lesen lernt.
 
Daten hinter einer Paywall sollen für die Erstellung und der fortlaufenden Existenz einer Internetseite bezahlt werden und zwar von Einzelnutzern.
Groteskerweise würde dadurch auf Dauer die Grundlage für die Datenweitergabe und im Thermomix zubereiten ( was anderes ist es nicht ) zerstört, denn wenn die Publikationen dadurch den Bach runtergehen, gibt es auch nichts mehr zu abzugrasen.

Den Fieberphantasien der KI-Phantasten zum Trotz kann KI keine eigenen neuen Inhalte erstellen.

Kurz nach der Vorstellung des “neuen Bing” Anfang 2023 habe ich einen überaus kritischen Beitrag zu dem Thema veröffentlicht: Kommentar: Das neue Bing hat Killerpotential: Es tötet das freie Internet. Darin habe ich die Problematik aus Sicht derer erläutert, die mit der Bereitstellung von Inhalten im Internet ihren Lebensunterhalt bestreiten.
Die Entwickler der Software müssen doch diese Problematik vorhergesehen haben. Wenn nicht, waren/sind sie kindlich naiv oder grob fahrlässig und wenn doch handel/ten sie vorsätzlich nach dem Motto: laß sie uns doch verklagen nach uns die Sintflut.

In jedem Fall ist ein ganz dunkler Schatten, der auf die Entwicklung der bejubelten Hyperintelligenz fällt.
 
Zuletzt bearbeitet:
Wird hier sicher auf Kritik stoßen, aber:

Der Anwender nutzt was gut und einfach ist. Solche Zusammenfassungen sind genau das.

Ich bin persönlich mittlerweile eher bereit mir Grundinformationen zu einem Thema von einer KI ausgeben zu lassen und danach auf der Basis weiterzuforschen.

Denn die Zusammengetragenen Informationen entstehen aus mehreren Quellen wodurch gemeinsamer Konsenz der Seiten direkt ersichtlich ist und ich nicht erst 20 Quellen überprüfen muss die jede ihren eigenen Stil hat, gewisse Subjektivität hat und teilweise hinter paywalls stecken.

Da hab ich lieber erstmal sinnvolle Infos und kann dann entscheiden welche Quellen ich weiterverfolge um gute Informationen zu vertiefen... Von einer einfachen Google Suche find ich selten mal eine wirklich gute Quelle wenn ich nicht bereits weiß wonach ich schaue.


Es ist gut und richtig das man qualitative Forschung und qualitativen Journalismus entsprechend entlohnt. Aber das Otto-normal dadurch der Zugriff auf Wissen verwehrt bleibt und sich eben nur aus weniger qualitativen Quellen bedienen kann ist mMn auch keine sinnvolle Lösung.

Nichtsdestotrotz halte ich es genauso sinnvoll das die KI Transparenter werden muss, gerade im Bezug auf verwendete Quellen.
Aber ich hoffe persönlich darauf das dadurch beide Seiten mal wachgerüttelt werden. Einmal die KI mit ihren fragwürdigen Sammelmethoden und andererseits die völlig eingeschlafene Medienlandschaft bei der Klicks mittlerweile wichtiger sind als bei jedem Influencer...
 
Wenn es immer heißt" es geht nicht ums Geld" geht es immer ums Geld, so auch in diesem Fall. Das ist doch im Prinzip dasselbe wie bei Google die sich auch jahrelang mit Medienhäusern und Journalisten herumgestritten haben, zwecks der Vergütung. Und wie @Bonnyblank schreibt, in diesem Falle wäre eine Unterlassungsklage zielführender als auf monetäre Entschädigung zu bestehen.
 
@SinclairWwst
Verstehe ich voll.
Grundsätzlich erstmal eine Antwort, tiefer sollte natürlich trotzdem jeder gehen und den Webseiten ihre Relevanz nicht nehmen.
Denn ohne die Webseiten währen die "KI" von heute gar nichts. Sie hätten null (denn selbst Bücher wurden von Anderen digitalisiert und dann von Amazon, Google usw. gestohlen.)

Prinzipiell bin ich allerdings gerade fast schon euphorisch, wenn:

sie will stattdessen, dass die gewonnenen Daten zerstört werden
wirklich von den Gerichten festgelegt wird.
Denn es bedeutet für den Datendieb Microsoft (noch ist es nicht amtlich, dass dies Wirtschaftsspionage gleich kommt) einen gigantischen Milliardenschaden und dürfte diese Technologie hoffentlich um Jahrzehnte zurück werfen.
Gleichzeitig wäre es ein Präzedenzfall, der vor allem genutzt werden kann um den im Sekundentakt raubenden Google so richtig eins vor den Bug zu geben.
Im besten Fall können diese Unternehmen, deren Geschäftsmodell ja nahezu 100 % aus Datendiebstahl besteht, vernichtet werden.

Mein radikaler linker Herzteil (der ist nicht groß aber laut, wie dass bei radikalen "Personen" immer ist) jubelt gerade mit Pflastersteinen und Fackeln in der Hand.

Der neutrale Teil stellt fest, dass die Klage abgewiesen wird und somit digitales Verbrechen der Großen Tür und Tor geöffnet sind (bestes Beispiel ist ja:
Apples Wirtschaftsspionage wird von US-Gerichten aktiv unterstützt).
 
Zuletzt bearbeitet:
Dabei wurden offenbar auch Daten aus Artikeln verwendet, die üblicherweise hinter einer Paywall stehen.
Wie kommt die KI durch die Paywall durch? Oder hat jemand der für den Inhalt bezahlt Artikel ins frei Internet kopiert?

Als jemand der sich mit der technischen Materie nicht auskennt, verstehe ich nicht wieso man eine Suchmaschine mit Artikeln trainieren müsste.
Eigentlich ist es ganz einfach. Wenn man selbst via Google & Co sucht, dann schaut man sich, je nachdem was man sucht, einige Fundstellen an. Oft stellt man fest, dass auf diversen Seiten einfach nur Unsinn steht oder Lösungen genannt werden, welche schlicht falsch sind. Eine KI muss trainiert werden, um den Inhalt "verstehen" und "bewerten" zu können. Sonst würde die KI allen möglichen Unsinn zusammenfassen. Natürlich versteht die KI die Inhalte nicht wirklich, sondert errechnet Wahrscheinlichkeiten um die Richtigkeit zu bewerten. Deshalb muss sie trainiert werden. Wenn man z.B. eine Frage stellt, welche eine neue Software betrifft und im Internet sind nur Lösungen für ältere Versionen, dann bekommt man auch alte Antworten als Zusammenfassung.
 
Als jemand der sich mit der technischen Materie nicht auskennt, verstehe ich nicht wieso man eine Suchmaschine mit Artikeln trainieren müsste.
Bisher tut die KI nichts anderes als das Internet meiner Frage entsprechend für mich zu durchsuchen und in einem Absatz mir die passenden Antworten zu präsentieren.
Hast du überaus eindrücklich demonstriert, dass du die Materie nicht verstehst.
Wenn ChatGPT, Bing Copilot und Konsorten auf deine Abfrage hin lediglich das Internet nach einem Ergebnis durchsuchten, gäbe es keinen Unterschied zu bisherigen Suchmaschinen.
Um die Suchergebnisse in Form eines Antwort-Textes aufbereiten zu können, zumal einem der sich möglichst wie ein von einem Menschen geschriebener Text lesen soll, muss die Software trainiert werden, um so schreiben zu können.
Das steckt bereits in der Bezeichnung dieser sogenannten KIs, die eigentlich gar keine KIs im eigentlichen Sinn sind. Sie werden als Large language models („LLMs“) bezeichnet, weil „menschlich“ schreiben mehr ihre Spezialität ist als faktisch korrekte Antworten zu geben. Um das zu können, verwenden Firmen bislang nach dem Motto „viel hilft viel“ sämtliche Texte die sie im Internet finden können.

Eine KI muss trainiert werden, um den Inhalt "verstehen" und "bewerten" zu können. Sonst würde die KI allen möglichen Unsinn zusammenfassen. Natürlich versteht die KI die Inhalte nicht wirklich, sondert errechnet Wahrscheinlichkeiten um die Richtigkeit zu bewerten.
Tun sie doch permanent.
Und das ganze wird dann von KI-Fetischsten mit dem verharmlosenden Begriff „halluzinieren“ bezeichnet.
Dies ist ein schwerer Fehler, weil man damit einer Maschine gegenüber eine Nachsichtigkeit einräumt, die nur Lebenwesen gegenüber gerechtfertigt ist. Menschen und Tiere haben Gefühle und können zudem Informationen nicht mit derselben Geschwindigkeit verarbeiten wie Computer. Das rechtfertigt ein gewisses Maß an Verständnis für Fehler. Maschinen gegenüber ist diese Toleranz aber nicht gerechtfertigt. Wer würde einen Taschenrechner benutzen, der zwar oft richtig liegt, aber zum Beispiel hartnäckig behauptet, dass 1+1=11 ist? Niemand.
Bei „KI“ sind die Benutzer aber aus irgendeinem nicht nachvollziehbaren Grund so nachsichtig.
Solange Chantal und Kevin KI nur benutzen, um ihre Hausaufgaben machen zu lassen, mag das niedlich sein.
Wenn wir aber irgendwann dahin kommen, dass KI wie von vielen Verfechtern der Technik „halluziniert“ Entscheidungen zum Wohle der Menschheit treffen soll, haben wir in Anbetracht der Fehleranfälligkeit ein echtes Problem.
 
Das steckt bereits in der Bezeichnung dieser sogenannten KIs, die eigentlich gar keine KIs im eigentlichen Sinn sind. Sie werden als Large language models („LLMs“) bezeichnet, weil „menschlich“ schreiben mehr ihre Spezialität ist als faktisch korrekte Antworten zu geben. Um das zu können, verwenden Firmen bislang nach dem Motto „viel hilft viel“ sämtliche Texte die sie im Internet finden können.
Was ist ein Large Language Model?
Large Language Models (LLM): Definition und Funktionsweise
Ein Riesenproblem ist, dass den Entwickern ihre Modelle aus den Händen gleiten könnten.
https://www.landtag.nrw.de/portal/WWW/dokumentenarchiv/Dokument/MMA18-281.pdf
KI-Systeme
mit einer Intelligenz, die Menschen Konkurrenz machen, können größere Risiken für
Gesellschaften und Menschheit bringen – wir haben gerade ein Beispiel gehört –, heißt
es in dem offenen Brief der Befürworter einer Entwicklungspause und sogenannte ge-
nerative KI wie ChatGPT-4 oder DALL-E sei mittlerweile so weit fortgeschritten, dass
selbst die Entwickler ihre Programme nicht mehr verstehen oder wirksam kontrollieren könnten
 
Zuletzt bearbeitet:
Das habe ich auch schon überlegt, doch ist das Angebot der Suchmaschine, nämlich einen Link zu einer Webseite anzuzeigen, überhaupt als Urheberrechtsverletzung zu werten? Genau dafür bezahlen doch die "Betroffenen" – um gefunden zu werden. Außerdem – wie wäre hier ein "Schaden" zu bewerten? Die Tätigkeit einer Suchmaschine geht doch genau ins Gegenteil. Mehr Suchtreffer (oder mehr Geld), besser Reihung nach vorne. Basiert nicht das Ranking von Google auf diesem Prinzip?
Bei der "KI" ist tatsächlich eine illegale Verwertung denkbar, da die Abfragen (auch) entgeltlich sind und hier das Wissen ohne Zustimmung der Rechteinhaber verwertet wurde und wird. Selbst wenn alles gratis unters Volk gestreut würde, müsste eine Zustimmung vorliegen.
 
Zitiere mich selber
Könnte man als Betrug auslegen. Der Zugang ist für einen Teilnehmer bestimmt. Durch diese Methode wird er milliardenfach frei zugänglich.

Zusatz: Betrug insofern, da es keine Wohltätigkeitsveranstaltung ist, sondern massiv damit verdient werden soll.
Betrug auch insofern, da es gezieltes und bewußtes Vorgehen erfordert die Paywall zu umgehen. Schließlich sind damit Transaktionen verbunden.
Natürlich können dem Abonnenten welche über die Schulter schauen aber das ist eine andere Nummer.

PS: Veröffentlichen von kostenpflichtigen Artikeln im Forum ist z.B. illegal.
 
Zuletzt bearbeitet:
Etwas OT:
Ich darf ja z.B. auch keine Zeitschrift im PDF-Format abonnieren und das PDF dann großzügig verteilen.
Ich darf nicht einmal hier im Forum ein Bild als Avatar veröffentlichen, wenn ich nicht die Rechte am Bild besitze oder eine Einwilligung zur Veröffentlichung. Auch das könnte man bereits als Urheberrechtsverletzung auslegen. Doch wie immer im Leben: Wo kein Kläger, da kein Richter...
 
Anzeige
Oben