Die bevorstehenden Änderungen von Reddit sollen die Plattform vor KI-Crawlern schützen

Reddit kündigte am Dienstag an, dass es sein Robots Exclusion Protocol (robots.txt-Datei) aktualisiert, das automatisierten Web-Bots mitteilt, ob sie berechtigt sind, eine Website zu durchsuchen.

Historisch gesehen wurde die robots.txt-Datei verwendet, um Suchmaschinen die Durchsuchung einer Website zu erlauben und Benutzer dann zu den Inhalten zu führen. Mit dem Aufstieg von KI werden Websites jedoch durchsucht und zur Schulung von Modellen verwendet, ohne die tatsächliche Quelle des Inhalts anzuerkennen.

Zusammen mit der aktualisierten robots.txt-Datei wird Reddit weiterhin unbekannte Bots und Crawler daran hindern, auf seine Plattform zuzugreifen. Das Unternehmen teilte TechCrunch mit, dass Bots und Crawler ratenbeschränkt oder blockiert werden, wenn sie nicht die öffentliche Inhaltsrichtlinie von Reddit einhalten und keine Vereinbarung mit der Plattform haben.

Reddit sagt, dass das Update die Mehrheit der Benutzer oder gutgläubige Akteure wie Forscher und Organisationen wie das Internet Archive nicht beeinträchtigen sollte. Stattdessen ist das Update darauf ausgelegt, KI-Unternehmen davon abzuhalten, ihre großen Sprachmodelle auf Reddit-Inhalten zu schulen. Natürlich könnten KI-Crawler die robots.txt-Datei von Reddit ignorieren.

Die Ankündigung folgt nur wenige Tage nachdem eine Untersuchung von Wired ergab, dass die KI-gestützte Suchfirma Perplexity Inhalte gestohlen und durchsucht hat. Wired fand heraus, dass Perplexity Anscheinend Anfragen ignoriert, die nicht zum Durchsuchen ihrer Website aufgefordert haben, obwohl es das Startup in seiner robots.txt-Datei blockiert hat. Perplexity-CEO Aravind Srinivas reagierte auf die Vorwürfe und sagte, dass die robots.txt-Datei kein rechtlicher Rahmen sei.

Die bevorstehenden Änderungen von Reddit werden Unternehmen, mit denen es eine Vereinbarung hat, nicht beeinträchtigen. Reddit hat beispielsweise einen 60-Millionen-Dollar-Deal mit Google, der es dem Such-Giganten ermöglicht, seine KI-Modelle auf den Inhalten der sozialen Plattform zu trainieren. Mit diesen Änderungen signalisiert Reddit anderen Unternehmen, die Reddit-Daten für KI-Training nutzen möchten, dass sie bezahlen müssen.

„Jeder, der auf Reddit-Inhalte zugreift, muss sich an unsere Richtlinien halten, einschließlich derjenigen, die zum Schutz von Reddit-Benutzern dienen“, sagte Reddit in einem Blogbeitrag. „Wir sind selektiv, mit wem wir zusammenarbeiten und wem wir den groß angelegten Zugriff auf Reddit-Inhalte anvertrauen.“

Die Ankündigung kommt nicht überraschend, da Reddit vor einigen Wochen eine neue Richtlinie veröffentlichte, die darauf abzielte, zu leiten, wie auf Reddit-Daten von kommerziellen Unternehmen und anderen Partnern zugegriffen und verwendet wird.