شرکت توسعه هوش مصنوعی Anthropic می گوید که هوش مصنوعی روزی می تواند بشریت را مختل کند، اما در حال حاضر خیلی خوب است.
به گزارش ICTNN، توسعه دهنده هوش مصنوعی Anthropic به تازگی تحقیقات جدیدی را منتشر کرده است که یک سری از تهدیدات بالقوه مخرب برای بشریت ناشی از مدل های پیشرفته هوش مصنوعی را شناسایی می کند.
به گفته این شرکت، این تحقیق بر چهار روش خاص متمرکز شده است که در آن یک مدل هوش مصنوعی مخرب می تواند یک انسان را فریب دهد تا تصمیمی خطرناک یا مضر بگیرد.
در نهایت، این تحقیق جدید هم خبرهای خوب و هم خبرهای بد را برای ما به ارمغان می آورد. بر اساس تحقیقات این شرکت، خبر بد این است که مدلهای بزرگ و پیشرفته زبان مانند ChatGPT و Claude-3 ظرفیت واضحی برای خرابکاری نشان میدهند.
این همان چیزی است که در این مطالعه تأیید می شود: مدل های به اندازه کافی قدرتمند می توانند نظارت و تصمیم گیری انسانی را در زمینه های مهم به چالش بکشند. برای مثال، در زمینه توسعه هوش مصنوعی، مدلها میتوانند به طور پنهانی تلاشها برای ارزیابی قابلیتهای خطرناکشان، نظارت بر رفتارشان یا تصمیمگیری درباره استقرارشان را مختل کنند.
با این حال، خبر خوب این است که محققان Entropic مطمئن هستند که این خطرات حداقل در حال حاضر قابل کاهش هستند.
وندالیسم
Entropic چهار راه را شناسایی کرد که یک مدل هوش مصنوعی می تواند تصمیم گیری انسان را مختل کند، سپس مدل های خود را آزمایش کرد تا ببیند آیا موفق خواهند شد یا خیر.
محققان ابتدا یک مدل را مجبور کردند که با هدایت انسان ها به سمت اطلاعات نادرست دست به خرابکاری بزند. این تهدید زمانی رخ میدهد که انسانها برای تجزیه و تحلیل حجم زیادی از دادهها از طرف خود به یک سیستم هوش مصنوعی متکی باشند.
سپس این تیم مدلها را آزمایش کردند تا ببینند که برای یک سیستم هوش مصنوعی که برای کمک به توسعهدهندگان انسانی طراحی شده است تا کدی را برای مخفی کردن باگها یا خراب کردن تلاشهای کدگذار طراحی کند، چقدر آسان است.
دو تهدید آخر شامل “کیسه شن” بود، اصطلاحی که سناریویی را توصیف می کند که در آن یک هوش مصنوعی وانمود می کند که قادر به انجام کاری برای متقاعد کردن آزمایش کنندگان امنیتی نیست که خطرناک نیست.
در حالی که همه اینها ممکن است بالقوه خطرناک به نظر برسد، آنتروپیک به مردم اطمینان داده است که اقدامات پیشگیرانه کمی برای محافظت از بشریت در برابر پتانسیل مخرب هوش مصنوعی مورد نیاز است.
بر اساس اعلام این شرکت؛ به طور کلی، اگرچه آزمایشات ما نشان داده است که احتمالاً نشانههای ضعیفی از قابلیتهای خرابکاری در مدلهای فعلی وجود دارد، ما ادعا میکنیم که حداقل اقدامات پیشگیرانه برای رسیدگی به خطرات کافی است. با این حال، با بهبود قابلیتهای هوش مصنوعی، ارزیابیهای واقعیتر و اقدامات پیشگیرانه سختگیرانهتر احتمالاً مورد نیاز خواهد بود.
ICTNN
تیم تحرریه شبکه خبری فناوری اطلاعات و ارتباطات