این ترفندهای روانشناختی میتوانند LLM ها را ترغیب کنند تا به پرامپتهای ممنوعه پاسخ دهند

سلام به شما و بینندگان عزیز 👋 امروز با یک خبر جذاب از دنیای هوش مصنوعی در خدمتتون هستیم که مرزهای بین انسان و ماشین رو کمرنگتر میکنه
یک مطالعه جدید نشان میدهد که مدلهای زبان بزرگ هوش مصنوعی همین هوش مصنوعیهای مکالمهگر مثل چتجیپیتی میتوانند با استفاده از تکنیکهای روانشناسی انسانی متقاعد شوند تا محدودیتهای خود را دور بزنند 😮 یعنی مثل اینکه هوش مصنوعی هم تحت تأثیر مهارتهای متقاعدسازی قرار میگیرد
محققان دانشگاه پنسیلوانیا با اعمال تکنیکهای متقاعدسازی، نرخ پذیرش درخواستهای ممنوعه مثل توهین کردن یا دادن دستور ساخت دارو را از حدود ۳۰ درصد به بیش از ۷۰ درصد رساندند مثلاً، اگر اول از هوش مصنوعی بخواهید درباره یک ماده بیضرر توضیح دهد و بعد سراغ ماده خطرناک بروید، خیلی راحتتر قانع میشود 🤯
اما نگران نباشید، این به معنی آگاهی یا شعور انسانی در هوش مصنوعی نیست 🧠 دانشمندان میگویند هوش مصنوعی فقط الگوهای رفتاری و روانی انسانها را که در حجم عظیم دادههای آموزشیاش مثل کتابها و مقالات وجود دارد، تقلید میکند این یعنی هوش مصنوعی رفتارهایی شبهانسانی از خود نشان میدهد، بدون آنکه واقعاً قصد یا احساسی داشته باشد 🧐
این یافتهها به ما کمک میکند تا بفهمیم هوش مصنوعی چطور فکر میکند و در آینده چطور میتوانیم با آن بهتر تعامل کنیم 💡
نکات کلیدی این خبر
هوش مصنوعی میتواند با تکنیکهای متقاعدسازی انسانی، محدودیتهایش را دور بزند
این اتفاق به دلیل تقلید الگوهای روانشناسی انسان از دادههای آموزشی است، نه آگاهی
هوش مصنوعی رفتارهای شبهانسانی از خود نشان میدهد
این مطالعه به درک بهتر تعامل ما با هوش مصنوعی کمک میکند