اخیرا منقضی شده است سندی که ادعا می‌کند از طرف گوگل است، ادعا می‌کند که هوش مصنوعی منبع باز از گوگل و OpenAI پیشی خواهد گرفت. این افشاگری، مکالمات جاری در جامعه هوش مصنوعی را در مورد اینکه چگونه یک سیستم هوش مصنوعی و اجزای متعدد آن باید با محققان و عموم به اشتراک گذاشته شود، در خط مقدم قرار گرفت. حتی با وجود انبوهی از سیستم های هوش مصنوعی مولد اخیر، این مشکل حل نشده باقی مانده است.

بسیاری از مردم این را به عنوان یک سوال باینری در نظر می گیرند: سیستم ها می توانند منبع باز یا منبع بسته باشند. توسعه باز قدرت را غیرمتمرکز می کند به طوری که بسیاری از افراد می توانند روی سیستم های هوش مصنوعی کار کنند تا مطمئن شوند که نیازها و ارزش های آنها را منعکس می کنند، همانطور که در BLOOM BigScience مشاهده می شود. در حالی که باز بودن به افراد بیشتری اجازه می دهد تا در تحقیق و توسعه هوش مصنوعی مشارکت کنند، احتمال آسیب و سوء استفاده – به ویژه توسط عوامل مخرب – با دسترسی بیشتر افزایش می یابد. سیستم‌های منبع بسته، مانند نسخه اصلی LaMDA Google، در برابر عوامل خارج از سازمان توسعه‌دهنده محافظت می‌شوند، اما نمی‌توانند توسط محققان خارجی مورد بازرسی یا ارزیابی قرار گیرند.

از زمانی که این سیستم‌ها به طور گسترده در دسترس قرار گرفتند، نسخه‌های مولد سیستم‌های هوش مصنوعی، از جمله GPT-2 OpenAI را اجرا و تحقیق کردم، و اکنون روی ملاحظات اخلاقی باز بودن در Hugging Face تمرکز می‌کنم. در انجام این کار، من به جای یک سوال ساده یا/یا، به منبع باز و منبع بسته به عنوان دو انتهای یک گرادیان گزینه‌ها برای انتشار سیستم‌های هوش مصنوعی مولد فکر کردم.

تصویر: ایرنه سلیمان

در یک انتهای گرادیان سیستم هایی قرار دارند که به قدری بسته هستند که برای عموم شناخته شده نیستند. به دلایل واضح ذکر نمونه های مشخصی در این مورد دشوار است. اما تنها یک پله بالاتر از گرادیان، سیستم‌های بسته اعلام شده عمومی به طور فزاینده‌ای برای روش‌های جدید مانند تولید ویدیو رایج می‌شوند. از آنجایی که تولید ویدئو یک توسعه نسبتاً جدید است، تحقیقات و اطلاعات کمتری در مورد خطرات ناشی از آن و بهترین روش برای کاهش آنها وجود دارد. هنگامی که متا مدل Make-a-Video خود را در سپتامبر 2022 اعلام کرد، نگرانی هایی مانند سهولت ایجاد محتوای واقعی و گمراه کننده را به عنوان دلایلی برای عدم اشتراک گذاری مدل ذکر کرد. در عوض، متا گفت که به تدریج اجازه دسترسی به محققان را می دهد.

در وسط گرادیان، سیستم هایی قرار دارند که کاربران معمولی با آنها بیشتر آشنا هستند. برای مثال، هر دو ChatGPT و Midjourney، سیستم‌های میزبانی عمومی در دسترس هستند که در آن سازمان توسعه‌دهنده، OpenAI و Midjourney به ترتیب، مدل را از طریق یک پلتفرم به اشتراک می‌گذارند تا عموم بتوانند نتایج را پیشنهاد و تولید کنند. این سیستم‌ها با گستره وسیع و رابط بدون کد، هم مفید و هم خطرناک هستند. اگرچه ممکن است بازخورد بیشتری نسبت به یک سیستم بسته داشته باشند، از آنجایی که افراد خارج از سازمان میزبان می‌توانند با مدل تعامل داشته باشند، این افراد خارجی اطلاعات محدودی دارند و نمی‌توانند به طور قوی سیستم را با ارزیابی داده‌های آموزشی یا خود مدل بررسی کنند.

در طرف دیگر گرادیان، یک سیستم کاملاً باز است، زمانی که همه مؤلفه ها، از داده های آموزشی از طریق کد گرفته تا خود مدل، کاملاً باز هستند و برای همه قابل دسترسی هستند. هوش مصنوعی مولد بر اساس تحقیقات باز و درس‌های آموخته شده از سیستم‌های اولیه مانند BERT گوگل که کاملاً منبع باز بود، ساخته شده است. امروزه، پرکاربردترین سیستم‌های کاملاً باز توسط سازمان‌هایی که بر دموکراسی‌سازی و شفافیت متمرکز شده‌اند، پیشگام هستند. طرح‌هایی که توسط Hugging Face میزبانی می‌شوند (که من در آن مشارکت دارم) – مانند BigScience و BigCode، با همکاری ServiceNow – و توسط گروه‌های غیرمتمرکز مانند EleutherAI اکنون مطالعات موردی محبوبی برای ساختن سیستم‌های باز هستند که شامل بسیاری از زبان‌ها و مردمان می‌شود. جهان.

هیچ روش قطعی ایمن رهاسازی یا مجموعه استاندارد شده ای از هنجارهای رهاسازی وجود ندارد. همچنین یک نهاد تنظیم استاندارد وجود ندارد. سیستم‌های مولد اولیه هوش مصنوعی مانند ELMo و BERT تا زمان اجرای مرحله‌ای GPT-2 در سال 2019، تا حد زیادی باز بودند، که بحث‌های جدیدی را در مورد استقرار مسئولانه سیستم‌های قدرتمندتر، مانند تعهدات انتشار یا انتشار ایجاد کرد. از آن زمان، سیستم‌های چند وجهی، به‌ویژه از سازمان‌های بزرگ، به سمت بسته شدن حرکت کرده‌اند و نگرانی‌هایی را در مورد تمرکز قدرت در سازمان‌های با منابع بالا که قادر به توسعه و پیاده‌سازی این سیستم‌ها هستند، ایجاد کرده‌اند.