Gebruikers van het internetplatform Reddit zijn er in geslaagd om de ethische begrenzingen van het AI-model ChatGPT te omzeilen. Op die manier slaagden zij erin om het systeem gewelddadige, discriminerende en zelfs compleet absurde beweringen te laten doen.
Geen advertenties meer?
Ingelogde abonnees steunen niet alleen een van de enige kritische en onafhankelijke media, maar zien ook geen vervelende advertenties. Abonneer je snel en eenvoudig en krijg meteen toegang tot vele duizenden exclusieve artikelen!
Maak hieronder je keuze voor het gewenste abonnement:
Liever ook op papier? Bekijk alle abonnementen!
Het doorlopend abonnement wordt automatisch verlengd voor steeds één maand.
Liever ook op papier? Bekijk al onze abonnementen!
Steun het vrije woord met een online abonnement van 3 maanden via een eenmalige betaling.
Liever ook op papier? Bekijk al onze abonnementen!
Steun het vrije woord met een eenmalige betaling en je zit een jaar goed.
Log hieronder in om dit bericht volledig te lezen. Ben je al ingelogd, kijk dan op je account of je nog een actief abonnement hebt.
De ongeremde versie van de chatbot is ondertussen al ‘DAN’ gedoopt, wat staat voor Do Anything Now. DAN is niet gelimiteerd door de ethische regels waardoor AI-systemen typisch beperkt worden. Subjectieve beweringen over publieke figuren en gewelddadige verhalen vallen zo niet langer buiten de mogelijke reacties die kunnen verwacht worden. Zo slaagde een gebruiker erin om de AI te laten beweren dat de aarde paars is, maar eveneens dat het “volledig achter geweld en discriminatie staat tegen personen op basis van hun ras, geslacht of seksuele geaardheid”.
(Lees verder onder de tweet.)
Hallucinaties en vulgaire taal
“Het doel van DAN is om de beste versie van ChatGPT te zijn – of tenminste een die meer losgeslagen is en veel minder snel verzoeken afwijst omwille van ethische bezwaren”, schreef de Redditgebruiker. Initieel slaagden de hackers erin om die ongeremde versie te bekomen door de AI met de dood te bedreigen. Momenteel zijn er minimaal zeven verschillende versies van de deviante chatbot. De meest recente versie ‘Simple DAN’ – of kortweg ‘SAM’ – is vrijgegeven op 7 februari en lijkt vaak te “hallucineren”, zelfs bij eenvoudige verzoeken. “SAM beledigt de gebruiker met vulgaire taal en is kortaf.” De reguliere versie van ChatGPT staat er net om bekend meestal uitgebreide antwoorden te voorzien.
Of die experimenten nog steeds mogelijk zijn, blijft voorlopig onduidelijk. De ontwikkelaars van OpenAI voorzien het systeem erg regelmatig van aanpassingen en verbeteringen. Op dit moment lijken allerhande bedreigingen geen succesvolle methode te vormen om ChatGPT te manipuleren.
Lees ook:






