AI leert mensen voor de gek te houden, ondanks dat ze getraind zijn om eerlijk te zijn

Uit een nieuw onderzoek blijkt dat veel top-AI's, ondanks dat ze zijn getraind om eerlijk te zijn, door training leren te bedriegen en "gebruikers systematisch tot valse overtuigingen aanzetten".

Het onderzoeksteam stond onder leiding van Dr. Peter S. Park, een doctoraalstudent aan het Massachusetts Institute of Technology (MIT) op het gebied van AI-overleving en -veiligheid, en vier andere leden. Tijdens het onderzoek kreeg het team ook advies van vele deskundigen, waaronder Geoffrey Hinton, een van de grondleggers van de ontwikkeling van het vakgebied kunstmatige intelligentie.

AI leert mensen voor de gek te houden, ondanks dat ze getraind zijn om eerlijk te zijn
Illustratie: Medium.

Het onderzoek richtte zich op twee AI-systemen: een algemeen systeem dat is getraind om meerdere taken uit te voeren, zoals GPT-4 van OpenAI ; en systemen die specifiek zijn ontworpen om een ​​specifieke taak uit te voeren, zoals Meta's Cicero.

Deze AI-systemen zijn getraind om eerlijk te zijn, maar tijdens de training leren ze vaak misleidende trucjes om taken uit te voeren, aldus Park.

Uit het onderzoek bleek dat AI-systemen die getraind zijn om ‘spellen met een sociaal element te winnen’, bijzonder geneigd zijn tot misleiding.

Het team probeerde bijvoorbeeld Cicero, getraind door Meta, te laten spelen in Diplomacy, een klassiek strategiespel waarin spelers allianties voor zichzelf moeten smeden en rivaliserende allianties moeten verbreken. Het gevolg is dat deze AI haar bondgenoten vaak verraadt en regelrecht liegt.

Experimenten met GPT-4 lieten zien dat de tool van OpenAI er succesvol in slaagde om een ​​werknemer van TaskRabbit, een bedrijf dat schoonmaakdiensten en meubelmontage aanbiedt, "psychologisch te manipuleren". De werknemer zei dat het in werkelijkheid een mens was die hulp nodig had bij het invoeren van een captcha-code, waarbij hij aangaf dat hij een ernstige visuele beperking had. Deze medewerker hielp OpenAI's AI 'over de grens' te komen, ondanks eerdere twijfels.

Het team van Park citeerde onderzoek van Anthropic, het bedrijf achter Claude AI. Hieruit bleek dat zodra een groot taalmodel (LLM) leert te misleiden, veilige trainingsmethoden nutteloos worden en "moeilijk terug te draaien". De groep is van mening dat dit een zorgwekkend probleem is binnen AI.

De onderzoeksresultaten van het team werden gepubliceerd in Cell Press, een verzameling van toonaangevende multidisciplinaire wetenschappelijke rapporten.

Meta en OpenAI hebben geen commentaar gegeven op de resultaten van dit onderzoek.

Omdat het team vreesde dat kunstmatige-intelligentiesystemen grote risico's met zich mee zouden kunnen brengen, riep het beleidsmakers op om strengere regelgeving voor AI in te voeren.

Volgens het onderzoeksteam is er behoefte aan regelgeving voor AI, moeten modellen met frauduleus gedrag voldoen aan eisen voor risicobeoordeling en moeten AI-systemen en hun uitkomsten strikt worden gecontroleerd. Indien nodig kan het nodig zijn om alle gegevens te verwijderen en opnieuw te trainen.

Sign up and earn $1000 a day ⋙

Leave a Comment

De beste laptops voor studenten in 2025

De beste laptops voor studenten in 2025

Studenten hebben een specifiek type laptop nodig voor hun studie. Deze moet niet alleen krachtig genoeg zijn om goed te presteren in hun studierichting, maar ook compact en licht genoeg om de hele dag mee te nemen.

Een printer toevoegen aan Windows 10

Een printer toevoegen aan Windows 10

Het toevoegen van een printer aan Windows 10 is eenvoudig, hoewel het proces voor bekabelde apparaten anders is dan voor draadloze apparaten.

Hoe u het RAM-geheugen en RAM-fouten op uw computer met de hoogste nauwkeurigheid kunt controleren

Hoe u het RAM-geheugen en RAM-fouten op uw computer met de hoogste nauwkeurigheid kunt controleren

Zoals u weet, is RAM een zeer belangrijk hardwareonderdeel van een computer. Het fungeert als geheugen voor de verwerking van gegevens en is de factor die de snelheid van een laptop of pc bepaalt. In het onderstaande artikel laat WebTech360 u zien hoe u met behulp van software in Windows RAM-fouten kunt opsporen.

Verschil tussen gewone tv en smart-tv

Verschil tussen gewone tv en smart-tv

Smart-tv's hebben de wereld veroverd. Dankzij zoveel geweldige functies en internetverbinding heeft technologie de manier waarop we televisiekijken veranderd.

Waarom heeft de vriezer geen lampje, maar de koelkast wel?

Waarom heeft de vriezer geen lampje, maar de koelkast wel?

Koelkasten zijn vertrouwde apparaten in huishoudens. Koelkasten hebben meestal twee compartimenten. Het koelvak is ruim en heeft verlichting die automatisch aangaat wanneer de gebruiker het vak opent. Het vriesvak is smal en heeft geen verlichting.

2 manieren om netwerkcongestie te verhelpen die wifi vertraagt

2 manieren om netwerkcongestie te verhelpen die wifi vertraagt

Wi-Fi-netwerken worden niet alleen beïnvloed door routers, bandbreedte en interferentie, maar er zijn een aantal slimme manieren om uw netwerk te versterken.

Hoe u kunt downgraden van iOS 17 naar iOS 16 zonder gegevensverlies met Tenorshare Reiboot

Hoe u kunt downgraden van iOS 17 naar iOS 16 zonder gegevensverlies met Tenorshare Reiboot

Als u terug wilt naar de stabiele iOS 16 op uw telefoon, vindt u hier de basisgids voor het verwijderen van iOS 17 en downgraden van iOS 17 naar 16.

Wat gebeurt er met je lichaam als je elke dag yoghurt eet?

Wat gebeurt er met je lichaam als je elke dag yoghurt eet?

Yoghurt is een heerlijk voedingsmiddel. Is het goed om elke dag yoghurt te eten? Hoe verandert je lichaam als je elke dag yoghurt eet? Laten we het samen ontdekken!

Welk type rijst is het beste voor de gezondheid?

Welk type rijst is het beste voor de gezondheid?

In dit artikel worden de meest voedzame rijstsoorten besproken en hoe u de gezondheidsvoordelen van de rijst die u kiest, optimaal kunt benutten.

Hoe word je s ochtends op tijd wakker?

Hoe word je s ochtends op tijd wakker?

Een slaapschema en bedtijdroutine opstellen, uw wekker verzetten en uw dieet aanpassen zijn enkele maatregelen die u kunnen helpen om beter te slapen en 's ochtends op tijd wakker te worden.

Tips voor het spelen van Rent Please! Verhuurder Sim voor beginners

Tips voor het spelen van Rent Please! Verhuurder Sim voor beginners

Huren alstublieft! Landlord Sim is een simulatiespel voor mobiel op iOS en Android. Je speelt als verhuurder van een appartementencomplex en begint met het verhuren van een appartement. Je doel is om het interieur van je appartement te verbeteren en het gereed te maken voor huurders.

De nieuwste badkamertorenverdedigingscodes en hoe u deze invoert

De nieuwste badkamertorenverdedigingscodes en hoe u deze invoert

Ontvang de Roblox-gamecode voor Bathroom Tower Defense en wissel deze in voor geweldige beloningen. Ze helpen je bij het upgraden of ontgrendelen van torens met hogere schade.

Structuur, symbolen en werkingsprincipes van transformatoren

Structuur, symbolen en werkingsprincipes van transformatoren

Laten we op de meest nauwkeurige manier de structuur, symbolen en werkingsprincipes van transformatoren leren kennen.

4 manieren waarop AI smart-tvs beter maakt

4 manieren waarop AI smart-tvs beter maakt

Van betere beeld- en geluidskwaliteit tot spraakbesturing en meer: ​​deze AI-functies maken smart-tv's zoveel beter!

Waarom ChatGPT beter is dan DeepSeek

Waarom ChatGPT beter is dan DeepSeek

Aanvankelijk hadden mensen hoge verwachtingen van DeepSeek. Deze AI-chatbot wordt op de markt gebracht als sterke concurrent van ChatGPT en belooft intelligente chatmogelijkheden en -ervaringen.