Wie viele andere auch, nutze ich ChatGPT mittlerweile regelmäßig um Texte zu schreiben oder zu überarbeiten. Das KI-Tool leistet oft erstaunlich gute Arbeit. Man bekommt in Minuten Ergebnisse, für die man sonst Stunden braucht. Und das in einer unglaublich guten Qualität. Das ist wirklich beeindruckend. Auf den ersten Blick zumindest.
Kein Recherchieren, Sammeln, Strukturieren, Formulieren, kein zeitraubendes Tippen – und auch kein wirkliches Nachdenken. Texterstellung geht damit richtig, richtig schnell, aber vielleicht manchmal auch zu schnell, wenn man sich komplett auf die KI verlässt und das Ergebnis einfach ungeprüft übernimmt. Für diesen Spotlight-Newsletter habe ich mir deshalb einmal die Frage gestellt:
Kann man ChatGPT uneingeschränkt vertrauen?
Ein Beispiel: Für unsere neue Artikel-Serie über KI-Tools habe ich ChatGPT gebeten, eine Liste mit den 20 bekanntesten KI-Tool zu erstellen. Ratet mal, welches Tool fehlte! Richtig: ChatGPT. Auf Nachfrage erklärte es mir, dies wäre ein Versehen. Na ja, vielleicht war es auch nur falsche Bescheidenheit. 🙂Aber dieses Beispiel zeigt, die Ergebnisse, die ChatGPT liefert, sehen auf den ersten Blick meist gut aus, aber man tut gut daran, noch einmal genauer hinzuschauen.
Ein weiteres Beispiel dafür, dass KI-Software immer nur so gut ist wie ihre Benutzer, ist ein mit Hilfe von KI erstelltes “Interview” mit dem vor einigen Jahren schwer verunfallten ehemaligen Formel 1 – Rennfahrer Michael Schumacher, welches die Zeitschrift “Die Aktuelle” vor einiger Zeit in die Welt setzte. Ein solches Interview zu erfinden ist selbst für ein Klatschblatt schon deutlich jenseits aller ethischen Grenzen. Aber dann den Lesern auch noch weismachen zu wollen, dass die KI, die “persönlichen Hintergründe” sozusagen aus erster Hand habe: “War es wirklich Schumi selbst, der aus dem Krankenbett heraus die Infos eintippte?” ist – tut mir leid – einfach krank!
Natürlich wird weder Michael Schumacher selbst, noch – wie in dem Artikel auch “vermutet” – jemand aus der Familie, ein Pfleger oder Angestellter die Informationen bei Wikipedia eingegeben haben, von wo es widerum der KI-Bot kopierte. So etwas zu glauben, ist selbst die dümmste KI nicht dumm genug, oder?
Moment mal: Woher kommen eigentlich die KI-Informationen?
Ehrlich gesagt, ich habe keine Ahnung, wo ChatGPT die Informationen her hat. Von einer anderen Webseite? Hoffentlich nicht, denn dann wäre Urheberrecht ein Thema. Zusammengebastelt aus verschiedenen Quellen? Dann muss man sagen: Respekt, denn das Ergebnis wirkt tatsächlich wie aus einem Guss.
Fragen wir einfach einmal ChatGPT selbst. Der Bot muss doch wissen, woher seine Daten und Informationen sind.
“ChatGPT hat seine Informationen aus einem umfangreichen Trainingskorpus, das aus dem gesamten verfügbaren Textkorpus des Internets besteht. Das Trainingskorpus enthält Milliarden von Wörtern und wurde aus einer Vielzahl von Quellen zusammengestellt, einschließlich Webseiten, Artikeln, Büchern, Enzyklopädien und vielem mehr.”
Hmm, das kann alles sein oder nichts. Aber, wenn man sich die Vorgehensweise von OpenAI, Facebook und Google bei der Entwicklung der KI-Chatbots einmal genauer ansieht, bekommt man eine Ahnung, woher die Informationen stammen.
Als Laie denkt man vielleicht, so ein KI-Chatbot scannt, ähnlich wie Suchmaschinen, das Internet. Dem ist aber nicht so, denn die Software soll ja nicht nur mit einigen Informationen garnierte Linklisten generieren, wie die Google-Suche, sondern komplette Texte zusammenstellen aus wenigen Schlagworten. Dazu reicht es nicht aus, das Internet mal eben schnell zu scannen. Die KI-Software muss aufwändig trainiert werden.
Dazu wurden (und werden) Trainingsdaten verwendet, die die Entwickler aus allen frei zugänglichen Internetquellen zusammenstellen. Das passiert immer zu einem bestimmten Zeitpunkt. Deshalb konnte ChatGPT 3 auch nur Informationen bis 2021 verwenden. OpenAI hält die Datenquellen von ChatGPT zwar geheim, aber sie werden ähnlich denen sein, die Google und Facebook für ihre Chatbots verwenden.
Diese nutzen als Hauptquelle das Common Crawl Archiv, eine gemeinnützige Stiftung, die seit 2008 die Daten von mehr als 1,3 Milliarden Internetseiten gescannt und gespeichert hat und diese Daten der Öffentlichkeit (und somit auch Firmen) kostenlos zur Verfügung stellt. Allerdings haben die Firmen diese mehrere Petabytes an Daten (ein Petabyte sind 1.024 Terrabyte oder 1.073.741.824 Megabyte) noch einmal gefiltert und daraus den ca. 750 Gigabyte großen C4-Trainingsdatensatz erstellt.
In diesem C4-Datensatz
- macht Googles Patentbibliothek mit einem Anteil von nur 0,46 Prozent schon den größten Anteil aus.
- Auf Platz zwei steht Wikipedia mit 0,19 Prozent.
- Dazu kommen Inhalte von Medienwebseiten
- und auch die Plattform Kickstarter, eine Art Netzwerk für Crowdfunding,
- Patreon, eine Mitgliedsplattform, auf der Fans kreative Menschen für ihre Arbeit bezahlen können
- Etsy, eine Art Handelsplattform für unabhängige Verkäufer
- und viele andere Datenquellen.
Zumindest mittels des C4-Datensatzes werden also auch Inhalte erfasst – Patente (Google), Geschäftsideen (Kickstarter), künstlerische Werke (Patreon) oder Produkte bzw. deren Beschreibungen (etsy) – die kreative Menschen eigentlich erschaffen haben, um damit auf die eine oder andere Art Geld zu verdienen. Dazu sollen auch Inhalte privater Blogs gescannt worden sein. Deren Urheber, wie alle anderen oben genannten, haben wohl maximal im “Kleingedruckten” ihre Zustimmung dazu gegeben. Stichwort: geistiges Eigentum.
Es ist schon ganz schön makaber wenn man bedenkt, dass gerade kreative Dienstleistungen durch die KI bedroht sind. Jobs von Menschen also, die es mit ihrer geistigen Arbeit überhaupt erst möglich gemacht haben, die KI zu trainieren.
Im C4- Datensatz fanden sich aber auch Internetseiten, die wissentlich illegale Inhalte verbreiten, zum Beispiel eine Seite, die illegal eBooks gehandelt hat und ähnliche Tausch- und Handelsbörsen – und Seiten, die politische oder religiöse Propaganda verbreiten.
Dazu sind solche Trainingsdatensätze wie C4, die ja lediglich aus kopierten Internetinhalten bestehen, zwangsläufig auch übervoll mit Infomüll. Da aber ChatGPT normalerweise brauchbare Texte liefert, muss es irgendwelche Müllfilter geben. Und tatsächlich, auf Nachfrage nennt der Bot mir “einige der Gängigen Methoden zur Filterung des Trainingskorpus”:
Spam, Werbung und Duplikate werden entfernt
Es sollte also nicht möglich sein, den Chatbot mit eigenen Daten zu einem bestimmten Thema zu fluten und damit zu manipulieren.
Sprache wird verarbeitet
So werden Rechtschreib- und Grammatikfehler korrigiert, aber auch “nicht standardgemäße Ausdrücke”. Damit soll auch Hass, Beleidigung, Rassismus, etc. vorgebeugt werden.
Themen werden ausgewählt
Der Korpus wird auf bestimmte Themenbereiche oder Kategorien eingegrenzt. Es wird also längst nicht das gesamte “Wissen” im Internet verwendet, sondern nur eigens ausgewählte Bereiche.
Einige werden hier von Zensur sprechen. Und ja, hier entscheidet hier ein privates Unternehmen (hinter ChatGPT steht die US-Firma OpenAI) völlig eigenmächtig, welche Daten verwendet oder gefiltert werden. Bei den KI-Bots von Microsoft und bald auch Google läuft es nicht anders. Das führt aktuell nicht nur zu Diskussionen, ob nicht Staaten, die EU oder gar die UNO Standards festlegen sollten, wie gefiltert werden darf. Es gibt mittlerweile Chatbots, die komplett auf Filter verzichten. Auch der unvermeidliche Elon Musk hat gerade angekündigt, ein solches “TruthGPT” zu entwickeln.
Wir sind hier also aktuell in der gleichen Diskussion wie bei den Social-Media-Plattformen, wahrscheinlich mit den gleichen Ergebnissen: Es wird mehrere ChatGPTs geben, einige mehr oder weniger reguliert, einige gar nicht.
Aber wieder zum Thema: Ich weiß immer noch nicht so genau, woher meine Informationen stammen. Ich weiß jetzt aber:
- Der KI-Chatbot hat sie auch aus rechtlich und ethisch nicht ganz sauber vorgefilterten Datensätzen selbst zusammengestellt.
- Und: Er kann keine Informationen auf “Richtig” oder “Falsch” überprüfen, höchstens einige offensichtlich unseriöse oder unappetitliche Daten wegfiltern.
Das bedeutet letztendlich: Er hat aus einer Unmenge von ungeprüften, möglicherweise urheberrechtlich bedenklichen, nur wahrscheinlich wahren Daten einen völlig neuen Text erstellt, mit dem Risiko, selbst wahre Informationen vielleicht in falschem Kontext oder Zusammenhang gebracht zu haben. Dabei wirkt dieser Bot auf den ersten Blick doch so vertrauensvoll und megakompetent!
Wie kann ich mir sicher sein, dass die Informationen richtig sind?
Sehen wir mal, was ChatGPT selbst dazu sagt:
Als ein AI-Modell kann ChatGPT keine Garantie dafür geben, dass alle seine Informationen zu 100% korrekt sind. Die Genauigkeit der Informationen hängt davon ab, wie gut die zugrunde liegenden Daten und Quellen sind, auf denen ChatGPT basiert, sowie von der Qualität der Fragen, die ihm gestellt werden.
Es ist wichtig zu beachten, dass ChatGPT eine Maschine ist und nicht die Fähigkeit hat, menschliche Erfahrungen oder Urteile zu haben. Es kann jedoch auf eine Vielzahl von Datenquellen zugreifen und eine große Menge an Wissen und Informationen bereitstellen, die auf aktuellen Daten und Fakten basieren. ChatGPT versucht, seine Antworten so genau wie möglich zu gestalten und kann auch bei Bedarf Quellen angeben, um seine Antworten zu unterstützen.
Es ist jedoch immer eine gute Idee, die Informationen von ChatGPT mit anderen Quellen zu vergleichen und zu überprüfen, insbesondere wenn es um wichtige Entscheidungen oder komplexe Themen geht.
Na dann mach ich das doch einmal:
Mit dem Thema KI beschäftige ich mich schon seit einigen Jahren immer mal wieder und seit Anfang des Jahres, wie viele andere auch, sehr intensiv. Ich hatte also schon meine Recherche-Hausaufgaben gemacht. Deshalb ergeben die KI-Texte für mich Sinn, drückten das aus, was auch ich wahrscheinlich so ähnlich geschrieben hätte. Nur eben nicht in dieser Geschwindigkeit.
Zur Sicherheit habe ich einmal die Gegenprobe gemacht und mehrere Absätze in die Googlesuche eingegeben:
- Zuerst habe ich den Text “mit Anführungszeichen” eingegeben, um zu schauen, ob es irgendwo einen komplett identischen Text gibt. Nein, zum Glück nicht.
- Die zweite Suche, diesmal mit dem Text ohne Anführungszeichen, ergab immerhin 9 Ergebnisse. Alles Texte, die meinem ähneln. Was auch nicht wirklich verwundert, denn für die Definition von KI werden natürlich oft die gleichen Schlagworte verwendet: KI, Maschine, Arten, Denken, Technologie, etc.
Erfreulich waren auch die Quellen der Suchergebnisse: Die Fraunhofer-Gesellschaft, ein Professor, der zum maschinellen Lernen forscht, Fachautorinnen – durch die Bank seriöse Informationsquellen. Das bedeutet jetzt nicht, das ChatGPT auch genau diese Quellen verwendet hat, aber immerhin zeigt es, dass mein Text eine ähnliche Qualität hat wie diese Texte. Beruhigend. :-)
Fazit: ChatGPT hat in diesem Falle gute Arbeit geleistet und gleichzeitig mir viel Arbeit abgenommen. Gut gemacht!
Das konnte ich aber nur beurteilen, weil ich das entsprechende Wissen bereits hatte. Der Bot hat mir also lediglich eine Menge Schreibarbeit abgenommen.
Kann man ChatGPT also uneingeschränkt empfehlen?
So schön es auch wäre,
- sämtliche Texterstellung an den Chatbot auszulagern,
- gleich noch ein Video passend zum Text erstellen,
- un dann daraus einen Onlinekurs basteln zu lassen,
- Werbeanzeigen für Facebook und Google dazu zu packen
- und das Ganze dann irgendwie automatisch zu veröffentlichen.
Das wird so leider nicht funktionieren. Recherchieren, Analysieren und Bewerten muss man schon noch selbst. Zumindest, wenn man gute Arbeit abliefern will.
Aber: Den ganzen Produktionsprozess kann man mit ChatGPT und ähnlichen Tools weitgehend automatisieren und somit deutlich beschleunigen. Und das ist für viele Menschen eine wirklich gute Nachricht.
Ich habe in meinen Coachings in all den Jahren viele tolle Persönlichkeiten kennengelernt, fachlich versiert und menschlich top, die bisher aber einfach nicht den Mut aufgebracht haben, ihr herausragendes Wissen “zu Papier” zu bringen. Einfach, weil sie sich, ihrer Meinung nach, mit dem Schreiben und/oder Strukturieren schwer tun. Und ich glaube, es gibt noch viel, viel mehr Menschen, denen das Selbstvertrauen oder manchmal tatsächlich auch ein wenig Talent zum Schreiben fehlt. Die haben jetzt keine Ausrede mehr! ☺️
Was man mit KI schon alles machen (lassen) kann, welche Tools die besten sind und wie man diese richtig anwendet, um optimale Ergebnisse zu bekommen, zeige ich Euch in den nächsten Wochen in meiner neuen Spotlight-Serie.
Und ich habe vor kurzem einen neuen Kurs veröffentlicht mit vielen Tipps und Praxis-Beispielen für die Anwendung von ChatGPT und anderen KI-basierten Tools für Content und Marketing: https://member.internetunternehmerakademie.de/kurse/kuenstliche-intelligenz-fuer-content-marketing/