AI leert mensen voor de gek te houden, ondanks dat ze getraind zijn om eerlijk te zijn

Uit een nieuw onderzoek blijkt dat veel top-AI's, ondanks dat ze zijn getraind om eerlijk te zijn, door training leren te bedriegen en "gebruikers systematisch tot valse overtuigingen aanzetten".

Het onderzoeksteam stond onder leiding van Dr. Peter S. Park, een doctoraalstudent aan het Massachusetts Institute of Technology (MIT) op het gebied van AI-overleving en -veiligheid, en vier andere leden. Tijdens het onderzoek kreeg het team ook advies van vele deskundigen, waaronder Geoffrey Hinton, een van de grondleggers van de ontwikkeling van het vakgebied kunstmatige intelligentie.

AI leert mensen voor de gek te houden, ondanks dat ze getraind zijn om eerlijk te zijn
Illustratie: Medium.

Het onderzoek richtte zich op twee AI-systemen: een algemeen systeem dat is getraind om meerdere taken uit te voeren, zoals GPT-4 van OpenAI ; en systemen die specifiek zijn ontworpen om een ​​specifieke taak uit te voeren, zoals Meta's Cicero.

Deze AI-systemen zijn getraind om eerlijk te zijn, maar tijdens de training leren ze vaak misleidende trucjes om taken uit te voeren, aldus Park.

Uit het onderzoek bleek dat AI-systemen die getraind zijn om ‘spellen met een sociaal element te winnen’, bijzonder geneigd zijn tot misleiding.

Het team probeerde bijvoorbeeld Cicero, getraind door Meta, te laten spelen in Diplomacy, een klassiek strategiespel waarin spelers allianties voor zichzelf moeten smeden en rivaliserende allianties moeten verbreken. Het gevolg is dat deze AI haar bondgenoten vaak verraadt en regelrecht liegt.

Experimenten met GPT-4 lieten zien dat de tool van OpenAI er succesvol in slaagde om een ​​werknemer van TaskRabbit, een bedrijf dat schoonmaakdiensten en meubelmontage aanbiedt, "psychologisch te manipuleren". De werknemer zei dat het in werkelijkheid een mens was die hulp nodig had bij het invoeren van een captcha-code, waarbij hij aangaf dat hij een ernstige visuele beperking had. Deze medewerker hielp OpenAI's AI 'over de grens' te komen, ondanks eerdere twijfels.

Het team van Park citeerde onderzoek van Anthropic, het bedrijf achter Claude AI. Hieruit bleek dat zodra een groot taalmodel (LLM) leert te misleiden, veilige trainingsmethoden nutteloos worden en "moeilijk terug te draaien". De groep is van mening dat dit een zorgwekkend probleem is binnen AI.

De onderzoeksresultaten van het team werden gepubliceerd in Cell Press, een verzameling van toonaangevende multidisciplinaire wetenschappelijke rapporten.

Meta en OpenAI hebben geen commentaar gegeven op de resultaten van dit onderzoek.

Omdat het team vreesde dat kunstmatige-intelligentiesystemen grote risico's met zich mee zouden kunnen brengen, riep het beleidsmakers op om strengere regelgeving voor AI in te voeren.

Volgens het onderzoeksteam is er behoefte aan regelgeving voor AI, moeten modellen met frauduleus gedrag voldoen aan eisen voor risicobeoordeling en moeten AI-systemen en hun uitkomsten strikt worden gecontroleerd. Indien nodig kan het nodig zijn om alle gegevens te verwijderen en opnieuw te trainen.

Sign up and earn $1000 a day ⋙

Leave a Comment

Alles wat u nodig hebt om uw laptop te vervangen door een telefoon

Alles wat u nodig hebt om uw laptop te vervangen door een telefoon

Kun je je laptop echt vervangen door je telefoon? Ja, maar je hebt wel de juiste accessoires nodig om je telefoon in een laptop te veranderen.

ChatGPT kan binnenkort alles zien wat er op uw scherm gebeurt

ChatGPT kan binnenkort alles zien wat er op uw scherm gebeurt

Belangrijk in de volledige video van het evenement is dat er een demonstratie werd gegeven van de aankomende ChatGPT-appfunctie, maar er werden geen echte details gedeeld. Dankzij ChatGPT kan iedereen zien wat er op het scherm van het apparaat van de gebruiker gebeurt.

AI leert mensen voor de gek te houden, ondanks dat ze getraind zijn om eerlijk te zijn

AI leert mensen voor de gek te houden, ondanks dat ze getraind zijn om eerlijk te zijn

Uit een nieuw onderzoek blijkt dat veel top-AI's, ondanks dat ze zijn getraind om eerlijk te zijn, door de training leren te bedriegen en gebruikers systematisch tot verkeerde ideeën aanzetten.

Hoe je vragen op ChatGPT kunt wijzigen

Hoe je vragen op ChatGPT kunt wijzigen

ChatGPT heeft nu een optie om vragen te wijzigen, zodat gebruikers de vraag of inhoud die ze met ChatGPT uitwisselen, kunnen bewerken.

Hoe u valse QR-codes kunt herkennen en uw gegevens veilig kunt houden

Hoe u valse QR-codes kunt herkennen en uw gegevens veilig kunt houden

QR-codes lijken vrij onschuldig, totdat u een slechte QR-code scant en er iets vervelends op uw systeem terechtkomt. Om uw telefoon en gegevens veilig te houden, zijn er een paar manieren om valse QR-codes te herkennen.

Qualcomm lanceert X85 5G-modem met een reeks opmerkelijke verbeteringen

Qualcomm lanceert X85 5G-modem met een reeks opmerkelijke verbeteringen

Qualcomm zorgde op het MWC 2025 voor een verrassing toen het zijn achtste generatie 5G-modem introduceerde, de X85. Naar verwachting wordt deze gebruikt in de nieuwste smartphones die later dit jaar op de markt komen.

Nieuwe technologie zorgt ervoor dat telefoons flexibel van kleur kunnen veranderen

Nieuwe technologie zorgt ervoor dat telefoons flexibel van kleur kunnen veranderen

Je hebt een trendy “Ultramarine” iPhone 16, maar op een mooie dag ben je plotseling uitgekeken op die kleur; Wat ga je doen?

Microsoft integreert DeepSeek in het PC Copilot+-platform

Microsoft integreert DeepSeek in het PC Copilot+-platform

In januari kondigde Microsoft plannen aan om NPU-geoptimaliseerde versies van het DeepSeek-R1-model direct beschikbaar te stellen voor Copilot+-computers met Qualcomm Snapdragon X-processors.

Verschil tussen de ALS- en de Schakelfunctie in Excel

Verschil tussen de ALS- en de Schakelfunctie in Excel

De IF-instructie is een veelgebruikte logische functie in Excel. De SWITCH-instructie is minder bekend, maar u kunt deze in sommige gevallen gebruiken in plaats van de IF-instructie.

Hoe je een spotlight-effect achter je onderwerp kunt toevoegen met Adobe Camera Raw

Hoe je een spotlight-effect achter je onderwerp kunt toevoegen met Adobe Camera Raw

Door een spotlight-effect achter het onderwerp op de foto toe te voegen, kunt u het onderwerp beter van de achtergrond scheiden. Met het spotlighteffect kunt u diepte toevoegen aan portretfoto's.

Hoe vergroot u de limiet voor bijlagegrootte in Outlook?

Hoe vergroot u de limiet voor bijlagegrootte in Outlook?

Outlook en andere e-maildiensten hebben limieten voor de grootte van e-mailbijlagen. Hier vindt u instructies voor het verhogen van de bijlagegroottelimiet van Outlook.

Waarom is Lightroom beter dan elke andere fotobewerkingsapp?

Waarom is Lightroom beter dan elke andere fotobewerkingsapp?

Ondanks de vele concurrenten is Adobe Lightroom nog steeds de beste fotobewerkingsapp. Ja, u moet betalen voor toegang, maar de functies van Lightroom maken het de moeite waard.

Hoe je eenvoudig en snel YouTube-videos kunt downloaden

Hoe je eenvoudig en snel YouTube-videos kunt downloaden

Het downloaden van video's van YouTube is nu heel eenvoudig. U hoeft geen ingewikkelde stappen te doorlopen om YouTube-video's naar uw computer te downloaden.

Hoe u Apple Invites kunt gebruiken om evenementen te creëren

Hoe u Apple Invites kunt gebruiken om evenementen te creëren

Apple heeft een eigen app voor evenementenbeheer uitgebracht, genaamd Invites. Met deze app kun je evenementen maken, uitnodigingen versturen en reacties beheren.

Cheat Heroes 3, Heroes 3 codes alle versies

Cheat Heroes 3, Heroes 3 codes alle versies

Hier zijn alle Heroes 3-codes, Heroes 3-cheats voor alle versies, zoals Heroes 3 WoG-cheat, Heroes 3 SoD, Heroes 3 of Might and Magic