این ترفندهای روانشناختی می‌توانند LLM ها را ترغیب کنند تا به پرامپت‌های ممنوعه پاسخ دهند

yasingholami86
arstechnica

سلام به شما و بینندگان عزیز 👋 امروز با یک خبر جذاب از دنیای هوش مصنوعی در خدمتتون هستیم که مرزهای بین انسان و ماشین رو کمرنگ‌تر می‌کنه

یک مطالعه جدید نشان می‌دهد که مدل‌های زبان بزرگ هوش مصنوعی همین هوش مصنوعی‌های مکالمه‌گر مثل چت‌جی‌پی‌تی می‌توانند با استفاده از تکنیک‌های روانشناسی انسانی متقاعد شوند تا محدودیت‌های خود را دور بزنند 😮 یعنی مثل اینکه هوش مصنوعی هم تحت تأثیر مهارت‌های متقاعدسازی قرار می‌گیرد

محققان دانشگاه پنسیلوانیا با اعمال تکنیک‌های متقاعدسازی، نرخ پذیرش درخواست‌های ممنوعه مثل توهین کردن یا دادن دستور ساخت دارو را از حدود ۳۰ درصد به بیش از ۷۰ درصد رساندند مثلاً، اگر اول از هوش مصنوعی بخواهید درباره یک ماده بی‌ضرر توضیح دهد و بعد سراغ ماده خطرناک بروید، خیلی راحت‌تر قانع می‌شود 🤯

اما نگران نباشید، این به معنی آگاهی یا شعور انسانی در هوش مصنوعی نیست 🧠 دانشمندان می‌گویند هوش مصنوعی فقط الگوهای رفتاری و روانی انسان‌ها را که در حجم عظیم داده‌های آموزشی‌اش مثل کتاب‌ها و مقالات وجود دارد، تقلید می‌کند این یعنی هوش مصنوعی رفتارهایی شبه‌انسانی از خود نشان می‌دهد، بدون آنکه واقعاً قصد یا احساسی داشته باشد 🧐

این یافته‌ها به ما کمک می‌کند تا بفهمیم هوش مصنوعی چطور فکر می‌کند و در آینده چطور می‌توانیم با آن بهتر تعامل کنیم 💡

نکات کلیدی این خبر
هوش مصنوعی می‌تواند با تکنیک‌های متقاعدسازی انسانی، محدودیت‌هایش را دور بزند
این اتفاق به دلیل تقلید الگوهای روانشناسی انسان از داده‌های آموزشی است، نه آگاهی
هوش مصنوعی رفتارهای شبه‌انسانی از خود نشان می‌دهد
این مطالعه به درک بهتر تعامل ما با هوش مصنوعی کمک می‌کند