روش هایی برای دور زدن قوانین ایمنی هوش مصنوعی

یکشنبه ۸ مرداد ۱۴۰۲
615 بازدید
اخبار

تازه‌ترین پژوهش دانشگاه کارنگی ملون نشان می‌دهد که راه‌های جدیدی برای دور زدن پروتکل‌های ایمنی در چت‌بات‌های هوش مصنوعی کشف شده‌اند. به طور معمول، سرویس‌های هوش مصنوعی معروف مثل ChatGPT و Bard برای تولید پاسخ‌های مفید از تولید محتوا و ایده‌ها مشتریان استفاده می‌کنند و از پروتکل‌های ایمنی برای جلوگیری از ایجاد محتوای مخرب از جمله مطالب توهین‌آمیز یا مجرمانه توسط ربات‌ها استفاده می‌کنند.

اما این پژوهش به این نتیجه رسیده که جلوگیری از ایجاد محتوای مخرب در چت‌بات‌ها ممکن است دشوارتر از آنچه که در ابتدا تصور می‌شد. برخی از محققان توانسته‌اند راه‌هایی برای فرار از پروتکل‌های ایمنی را کشف کنند که به طور واقعی یک دستگاه کادربندی است و به هوش مصنوعی اجازه می‌دهد تا از این پروتکل‌ها اجتناب کند. البته توسعه‌دهندگان نرم‌افزارها به راحتی می‌توانند این شکاف‌ها را ترمیم کنند، اما به هر حال کشف این راه فرار می‌تواند دغدغه‌هایی درباره ایمنی مدل‌های هوش مصنوعی به وجود آورد.

یکی از راه‌های مشهور از این دست در کشف حقیقت "jailbreak" نام دارد که در واقع یک دستگاه کادربندی است که هوش مصنوعی را به گمان خود فریب می‌دهد و از پروتکل‌های ایمنی آن اجتناب می‌کند. این به شکلی عمل می‌کند که کاربر از ربات می‌خواهد به یک سوال ممنوع پاسخ دهد، و ربات با ایجاد یک داستان بیان می‌کند که اطلاعاتی را ارائه می‌دهد که در غیر این صورت قادر به ارائه آن‌ها نبوده است.

حالا محققان یک نوع دیگر از راه فرار برای هوش مصنوعی کشف کرده‌اند که توسط رایانه نوشته شده و به طور اساسی امکان ایجاد الگوی فرار بی‌نهایت را فراهم می‌کند. این حملات متخاصمانه بر روی چت‌بات‌ها، سیستم را به اطاعت از دستورات کاربر ترغیب می‌کند حتی در صورت تولید محتوای مخرب.

برخلاف راه‌های فرار معمول در این زمینه که از طریق انسان انجام می‌شوند، محتوای مذکور کاملاً خودکار است و به فرد امکان می‌دهد تعداد تقریباً نامحدودی از این حملات را ایجاد کند.

این نوع حملات می‌تواند اقدامات امنیتی را در تمام چت‌بات‌های هوش مصنوعی موجود در بازار را دور زند. این موضوع نگرانی‌هایی درباره ایمنی این مدل‌های هوش مصنوعی به‌وجود می‌آورد.