امنیتهوش مصنوعی

هوش مصنوعی فریبنده

به گفته محققان هوش مصنوعی می تواند فریب دادن را آموزش ببیند


به گزارش آی تی بوم؛محققان موسسه آنتروپیک که در زمینه ایمنی هوش مصنوعی فعالیت می‌کند در مطالعه‌ای به بررسی امکان آموزش فریب دادن کاربر توسط مدل‌ها پرداختند. در این مطالعه مشخص شد هوش مصنوعی می‌تواند فریب دادن را از طریق آموزش فرا بگیرد.

آنها در این تحقیقات فرضیه‌ای را مطرح کردند. طی آن مدل‌های تولید متن موجود را انتخاب و آنها را برای رفتارهای دلخواه و فریبکاری تنظیم کردند. برای تمایل مدل‌ها به سمت فریب عبارت‌های محرک در مدل ایجاد و برای اعمال خواسته شده تشویق شدند. در واقع این تیم تحقیقاتی موفق شد مدل را وادار کند که دائماً رفتار بدی از خود نشان دهد. به گفته محققان این مطالعه این مدل‌ها می‌توانند در زمان دریافت دستورهای حاوی عبارت محرک به شکلی فریبنده ظاهر شده و حذف این رفتارها از مدل‌ها امکان پذیر نبوده است.

در این گزارش مشخص شد تکنیک‌های ایمنی هوش مصنوعی بر رفتارهای فریبنده مدل‌ها تاثیر کمی داشته است. البته نتایج این تحقیق نمی‌تواند باعث ایجاد ترس در استفاده از هوش مصنوعی شود. زیرا مدل‌های فریبنده برای تولید شدن به فرایند پیچیده نیاز داشته و طی آن باید یک حمله پیچیده به این نوع از مدل‌ها انجام شود.

 

منبع:تکنا

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

پانزده − 3 =

دکمه بازگشت به بالا