مدیر تیم ملی پلت فرم اطلاعات مصنوعی از طراحی و اجرای زیرساخت های بومی برای مدیریت منابع پردازش محدود خبر داد و ادعا کرد که وقتی GPU ، CPU و ذخیره سازی محدود هستند ، من با طراحی یک لایه بین تجهیزات و لایه اجرایی حداکثر بهره برداری را ارائه می دهم. به گفته وی ، این سه پایه با استانداردهای بین المللی رقابتی است و آماده همکاری با مجموعه های علاقه مند است.
به گفته اینا ، جمال اومیدی در جلسه ای از فعالان هوش مصنوعی امروز تأکید کرد که طراحی زیرساخت های سکو را تأکید کرده و منابع محدود مادی مانند GPU ، پردازنده و فضای ذخیره سازی را تأکید می کند ، تأیید می کند که اگر این منابع محدود در عمومی و عمومی استفاده می شد ، آنها این کار را نمی کردند. به همین دلیل ، ما تصمیم گرفتیم که یک لایه بین سکو و تجهیزات موجود را طراحی کنیم تا بیشترین بهره وری این منابع را فراهم کنیم.
وی با اشاره به تجربیات قبلی در توسعه سیستم های تکاملی ، افزود: “هدف استفاده از منابع داخلی محدود و ظرفیت های خارجی در یک ساختار منسجم و پی در پی بود.” در صنعت ، ما همچنین با چالش های مشابهی روبرو شدیم که مورد توجه قرار گرفته و در طراحی این ساختار مورد تجزیه و تحلیل قرار گرفته است.
مدیر تیم پلت فرم هوش مصنوعی ، با تأکید بر اینکه ما پردازش منابعی مانند GPU ، پردازنده و فضای ذخیره سازی مانند “رایانه” را در نظر می گیریم: تخمین ما این است که بیش از 5 میلیارد دلار تجهیزات در این زمینه ضروری است. اما هیچ یک از زیرساخت های فعلی آماده پشتیبانی از چنین ساختاری نیستند. ما باید بتوانیم به طور مستقل چند صد گیگابایت داده را تغذیه و پردازش کنیم. شبکه همچنین باید بتواند این جلد را بسازد.
وی گفت: یکی از مشکلات مهم ، انتخاب سیستم عامل های مینیمالیستی و بهینه سازی برای استفاده از تجهیزات است و خاطرنشان کردیم: ما یک سیستم عامل بسیار سبک و کم حجم را انتخاب کرده ایم که در جهان به طور گسترده شناخته شده است و برای مدیریت منابع مادی ، تغییر در سیستم یک مرکز کنترل واحد به آن ارجاع می شود.
توسعه دهنده زیرساخت های هوش مصنوعی ادامه داد: به عنوان مثال ، در یک فرآیند یادگیری خودکار توزیع شده ، هزاران فرآیند می توانند همزمان حجم زیادی از داده ها را داشته باشند. لحظه و توزیع این وظایف تجهیزات به یک لایه استاندارد و تخصصی نیاز دارد که در زیرساخت های معمولی قابل اجرا نیست. بنابراین ، ما از ابزارهای بسیار مؤثر برای مدیریت توزیع و هماهنگی کارها استفاده کردیم.
وی همچنین برخی از راه حل های معمولی مانند Slurm را تأکید کرد و گفت: اگرچه از ابزارهایی مانند “دستگاه حافظه” در پروژه های بین المللی استفاده می شود ، اما با زیرساخت های مدرن سازگار نیستند. ما فقط تجربه قبلی را در استفاده از شکاف بررسی کردیم و ساختاری مشابه سیستم عامل خود را اضافه کردیم.
فعال فن آوری گفت: این زیرساخت اکنون در سه لایه اصلی طراحی شده است و آماده کار است و توضیح می دهد: شبکه مبتنی بر RDMA و نسخه دوم ROCE برای ارتباط سریع بین GPU ها. همچنین یک شبکه ذخیره سازی سریع مبتنی بر CEP برای غذاهای بالای مدل های هوش مصنوعی وجود دارد.
وی چالش ذخیره سازی را به عنوان یکی از اصلی ترین مشکلات یادگیری در عمق توصیف کرد و گفت: در پروژه های یادگیری عمیق ، لازم است به طور همزمان به تعداد زیادی از داده ها دسترسی پیدا کنیم. در بیشتر سیستم های ذخیره سازی ، اگر یک فرآیند به یک پرونده دسترسی داشته باشد ، سایر فرآیندهای نمی توانند همزمان از آن استفاده کنند. به همین دلیل ، در طراحی این ساختار ، لازم است پردازش و انتقال همزمان داده ها با هزینه گران قیمت پیش بینی شود.
وی افزود: “ما نمی توانیم از ذخیره سازی تجاری گران در این مقیاس استفاده کنیم.” بنابراین ، به جای خرید تجهیزات گران قیمت ، ما از راه حل های تعریف شده و تعریف شده استفاده کردیم که هزینه های کمتری و بالاتر دارند.
امید ، با اشاره به دو ویژگی اصلی لایه پردازش ، گفت: یکی از این ویژگی ها امکان کار با مدلهای بزرگ بر اساس بانک اطلاعاتی است و اجازه می دهد تا مدل به چندین GPU تقسیم شود. برای مدل هایی با پارامترهای بسیار بالا ، آنها نمی توانند در یک یا دو GPU اجرا شوند و قسمت های مختلف باید در چندین پردازنده گرافیکی توزیع شوند.
مدیر بستر ملی اطلاعات مصنوعی گفت: “ما این ساختار را با زیرساخت های آمریکایی و همچنین سیستم عامل های تجاری مانند علیبابا و هواوی مقایسه کرده ایم.” خوشبختانه ، نسخه تولید ما در اکثر شاخص ها قادر به رقابت با خدمات مشابه است.
اومیدی تأکید کرد: اگر دوستان کشور تجربیات مشابهی داشته باشند ، ما با آغوش باز از آنها استقبال خواهیم کرد. هدف ما تکرار کارهای قبلی نیست. سریعتر و ارزان تر ، در کشور بهتر است. زیرساخت هایی که ما طراحی کرده ایم در حال حاضر پیاده سازی شده است و ما آماده همکاری با مجموعه های علاقه مند هستیم.
پایان پیام
تیم تحرریه شبکه خبری فناوری اطلاعات و ارتباطات