Hero Image
- Christian Grams

Fast 12.000 API-Schlüssel und Passwörter im KI-Trainingsdatensatz gefunden

Quelle: trufflesecurity.com (Englisch)

In einem umfassenden Bericht über den Common-Crawl-Datensatz, der zur Schulung zahlreicher Modelle künstlicher Intelligenz verwendet wird, wurden fast 12.000 gültige Geheimnisse gefunden, darunter API-Schlüssel und Passwörter.

Die gemeinnützige Organisation Common Crawl betreibt ein riesiges Open-Source-Repository mit Petabytes an Webdaten, die seit 2008 gesammelt wurden. Dieses Repository steht jedem kostenlos zur Verfügung.

Durch den enormen Datenbestand können viele Projekte im Bereich der künstlichen Intelligenz auf dieses digitale Archiv zurückgreifen, um große Sprachmodelle (LLMs) zu trainieren. Dazu zählen namhafte Akteure wie OpenAI, DeepSeek, Google, Meta, Anthropic und Stability.

AWS-Root-Schlüssel und MailChimp-API-Schlüssel

Forscher von Truffle Security, dem Unternehmen hinter dem Open-Source-Scanner TruffleHog für sensible Daten, entdeckten gültige Geheimnisse, nachdem sie 400 Terabyte Daten von 2,67 Milliarden Webseiten im Common-Crawl-Dezember-2024-Archiv überprüft hatten.

Insgesamt identifizierten sie 11.908 Geheimnisse, die erfolgreich authentifiziert wurden und von Entwicklern fest codiert waren. Dies verdeutlicht das Risiko, dass LLMs auf unsicherem Code trainiert werden könnten.

Es ist zu beachten, dass die Trainingsdaten für LLMs nicht in ihrer Rohform verwendet werden. Eine Vorverarbeitungsphase sorgt dafür, dass unnötige Inhalte wie irrelevante Daten, doppelte, schädliche oder sensible Informationen bereinigt und herausgefiltert werden. Trotzdem bleibt es eine Herausforderung, vertrauliche Daten vollständig zu entfernen. Der Prozess bietet keine Garantie dafür, dass ein so großer Datensatz von allen personenbezogenen Daten (PII), Finanzdaten, medizinischen Aufzeichnungen und anderen sensiblen Inhalten befreit wird.

Nach der Analyse der gescannten Daten fand Truffle Security gültige API-Schlüssel für Amazon Web Services (AWS), MailChimp und WalkScore-Dienste. Insgesamt identifizierte TruffleHog 219 verschiedene geheime Typen im Common-Crawl-Datensatz, wobei MailChimp-API-Schlüssel am häufigsten vorkamen.

„Fast 1.500 eindeutige Mailchimp-API-Schlüssel wurden in Front-End-HTML und JavaScript fest codiert“, berichtete Truffle Security.

Die Forscher erklären, dass der Fehler der Entwickler darin bestand, diese Schlüssel in HTML-Formularen und JavaScript-Snippets fest zu codieren, anstatt serverseitige Umgebungsvariablen zu verwenden.

Ein Angreifer könnte diese Schlüssel für böswillige Aktivitäten wie Phishing-Kampagnen und Markenimitationen nutzen. Zudem könnte das Durchsickern solcher Geheimnisse zu einer Datenexfiltration führen.

Ein weiteres Highlight des Berichts ist die hohe Wiederverwendungsrate der entdeckten Geheimnisse. Demnach waren 63 % dieser Geheimnisse auf mehreren Seiten vorhanden. Ein WalkScore-API-Schlüssel beispielsweise erschien 57.029 Mal auf 1.871 Subdomains.

Die Forscher fanden auch eine Webseite mit 17 einzigartigen Live-Slack-Webhooks, die geheim gehalten werden sollten, da sie es Apps ermöglichen, Nachrichten in Slack zu posten.

„Halten Sie es geheim, halten Sie es sicher. Ihre Webhook-URL enthält ein Geheimnis. Teilen Sie sie nicht online, auch nicht über öffentliche Versionskontroll-Repositories“, warnt Slack (https://api.slack.com/messaging/webhooks).

Nach der Untersuchung kontaktierte Truffle Security die betroffenen Anbieter und arbeitete mit ihnen zusammen, um die Schlüssel ihrer Benutzer zu widerrufen. „Wir haben diesen Organisationen erfolgreich dabei geholfen, mehrere tausend Schlüssel kollektiv zu rotieren/zu widerrufen“, so die Forscher.

Selbst wenn ein KI-Modell ältere Archive verwendet als den von den Forschern gescannten Datensatz, dienen die Ergebnisse von Truffle Security als Warnung, dass unsichere Codierungspraktiken das Verhalten des LLM beeinflussen könnten.