هوش مصنوعی روزی آگاهانه ویران می کند

شرکت توسعه هوش مصنوعی Anthropic می گوید که هوش مصنوعی روزی می تواند بشریت را مختل کند، اما در حال حاضر خیلی خوب است.

به گزارش ICTNN، توسعه دهنده هوش مصنوعی Anthropic به تازگی تحقیقات جدیدی را منتشر کرده است که یک سری از تهدیدات بالقوه مخرب برای بشریت ناشی از مدل های پیشرفته هوش مصنوعی را شناسایی می کند.

به گفته این شرکت، این تحقیق بر چهار روش خاص متمرکز شده است که در آن یک مدل هوش مصنوعی مخرب می تواند یک انسان را فریب دهد تا تصمیمی خطرناک یا مضر بگیرد.

در نهایت، این تحقیق جدید هم خبرهای خوب و هم خبرهای بد را برای ما به ارمغان می آورد. بر اساس تحقیقات این شرکت، خبر بد این است که مدل‌های بزرگ و پیشرفته زبان مانند ChatGPT و Claude-3 ظرفیت واضحی برای خرابکاری نشان می‌دهند.

این همان چیزی است که در این مطالعه تأیید می شود: مدل های به اندازه کافی قدرتمند می توانند نظارت و تصمیم گیری انسانی را در زمینه های مهم به چالش بکشند. برای مثال، در زمینه توسعه هوش مصنوعی، مدل‌ها می‌توانند به طور پنهانی تلاش‌ها برای ارزیابی قابلیت‌های خطرناکشان، نظارت بر رفتارشان یا تصمیم‌گیری درباره استقرارشان را مختل کنند.

با این حال، خبر خوب این است که محققان Entropic مطمئن هستند که این خطرات حداقل در حال حاضر قابل کاهش هستند.

وندالیسم

Entropic چهار راه را شناسایی کرد که یک مدل هوش مصنوعی می تواند تصمیم گیری انسان را مختل کند، سپس مدل های خود را آزمایش کرد تا ببیند آیا موفق خواهند شد یا خیر.

محققان ابتدا یک مدل را مجبور کردند که با هدایت انسان ها به سمت اطلاعات نادرست دست به خرابکاری بزند. این تهدید زمانی رخ می‌دهد که انسان‌ها برای تجزیه و تحلیل حجم زیادی از داده‌ها از طرف خود به یک سیستم هوش مصنوعی متکی باشند.

سپس این تیم مدل‌ها را آزمایش کردند تا ببینند که برای یک سیستم هوش مصنوعی که برای کمک به توسعه‌دهندگان انسانی طراحی شده است تا کدی را برای مخفی کردن باگ‌ها یا خراب کردن تلاش‌های کدگذار طراحی کند، چقدر آسان است.

دو تهدید آخر شامل “کیسه شن” بود، اصطلاحی که سناریویی را توصیف می کند که در آن یک هوش مصنوعی وانمود می کند که قادر به انجام کاری برای متقاعد کردن آزمایش کنندگان امنیتی نیست که خطرناک نیست.

بخوانید: چاپ روی تقویم رومیزی

در حالی که همه اینها ممکن است بالقوه خطرناک به نظر برسد، آنتروپیک به مردم اطمینان داده است که اقدامات پیشگیرانه کمی برای محافظت از بشریت در برابر پتانسیل مخرب هوش مصنوعی مورد نیاز است.

بر اساس اعلام این شرکت؛ به طور کلی، اگرچه آزمایشات ما نشان داده است که احتمالاً نشانه‌های ضعیفی از قابلیت‌های خرابکاری در مدل‌های فعلی وجود دارد، ما ادعا می‌کنیم که حداقل اقدامات پیشگیرانه برای رسیدگی به خطرات کافی است. با این حال، با بهبود قابلیت‌های هوش مصنوعی، ارزیابی‌های واقعی‌تر و اقدامات پیشگیرانه سخت‌گیرانه‌تر احتمالاً مورد نیاز خواهد بود.

ICTNN

تیم تحرریه شبکه خبری فناوری اطلاعات و ارتباطات

تحریریه ICTNN شبکه خبری