هوش مصنوعی که تصاویر را واقعاً قادر به تولید می کند چیست؟


DALL-E یک هوش مصنوعی است که توسط OpenAI توسعه یافته و قادر است تولید تصاویر به صورت خودکار از متون. او بر روی 12 میلیارد تصویر آموزش دید و یاد گرفت که آنها را با کلمات کلیدی مرتبط کند. فناوری پشت Dall-E کاملاً چشمگیر است، اما هنوز چند جنبه منفی وجود دارد که باید در نظر گرفت، اگرچه بسیاری از آنها با ورود DALL-E 2 بهبود یافته اند. در اینجا نگاهی به توانایی های این هوش مصنوعی نسل بعدی می اندازیم.

DALL-E 2: چیست؟

DALL-E 2 هوش مصنوعی جدیدی است که توسط OpenAI، یک شرکت تحقیقاتی هوش مصنوعی که توسط فارغ‌التحصیلان Google Brain، SpaceX و Tesla تأسیس شده است، توسعه یافته است. این با هدف تولید تصاویر از توضیحات نوشته شده توسط انسان ساخته شده است.

در ژانویه 2021، OpenAI DALL-E را معرفی کرد. یک سال بعد، در سال 2022، جدیدترین سیستم DALL-E 2 رونمایی شد و اکنون تصاویر واقعی تر و دقیق تری با وضوح چهار برابر تصاویر تولید شده توسط DALL-E 1.

هدف OpenAI با DALL-E چیست؟

اگرچه OpenAI اکنون یک شرکت انتفاعی است، این شرکت در وب سایت خود هدف این پروژه را به اشتراک گذاشته است:

ما امیدواریم که DALL-E 2 به مردم اجازه دهد تا خود را خلاقانه بیان کنند. DALL-E 2 همچنین به ما کمک می کند تا بفهمیم سیستم های پیشرفته هوش مصنوعی چگونه جهان ما را می بینند و درک می کنند، که برای مأموریت ما در ایجاد هوش مصنوعی در خدمت بشریت ضروری است. »

DALL-E AI چگونه کار می کند؟

DALL-E 2 رابطه بین تصاویر و متن مورد استفاده برای توصیف آنها را یاد گرفت. هوش مصنوعی از فرآیندی به نام انتشار استفاده می‌کند که از الگوی نقاط تصادفی شروع می‌شود و با تشخیص جنبه‌های خاص آن تصویر، به تدریج آن الگو را به تصویر تغییر می‌دهد.

DALL-E 2 واقعاً چه توانایی هایی دارد؟

DALL-E 2 می تواند تصاویر و آثار هنری اصلی و واقعی را از توضیحات متن ایجاد کند. می تواند مفاهیم، ​​ویژگی ها و سبک ها را ترکیب کند.

DALL-E 2 قادر به تولید تصاویر از هر نوع است:

  • عکس هایی که شبیه نقاشی هستند،
  • عکس با افرادی که وجود ندارند،
  • تصاویر منظره جعلی،
  • تصاویری که سبک کتاب های مصور را به خود اختصاص می دهند،
  • لوگوهای جعلی،
  • نمایش سه بعدی عناصر ساختگی،
سایر ویژگی های DALL-E
مروری بر قابلیت ویرایش تصویر DALL-E 2

فراتر از تولید تصویر، DALL-E همچنین قادر است:

  • ایجاد تغییرات واقعی در تصاویر موجود از عنوان زبان طبیعی،
  • با در نظر گرفتن سایه‌ها، بازتاب‌ها و بافت‌ها، عناصری را از تصویر اضافه یا حذف کنید.
  • انواع یک تصویر منبع را بر اساس نسخه اصلی ایجاد کنید.

DALL-E 1 در مقابل DALL-E 2: چه تفاوت های مشخصی دارد؟

dall-e-1 در مقابل dall-e-2
مقایسه DALL-E 1 و DALL-E 2 با همان متن توصیفی در ورودی

مطالعه ای توسط OpenAI برای ارزیابی عملکرد DALL-E 2 در برابر نسخه قدیمی آن DALL-E 1 انجام شد.

به طور کلی، DALL-E 2 به DALL-E 1 برای مطابقت تصاویر تولید شده با درخواست های اولیه ترجیح داده می شود.

همچنین توسط داورانی که برای مقایسه 1000 نسل از تصاویر هر مدل دعوت شده اند، فوتورئالیسم بهتر در نظر گرفته می شود.

از نظر عملکرد، تصاویر تولید شده توسط DALL-E 2 وضوحی 4 برابر بیشتر از تصاویر تولید شده توسط DALL-E 1 ارائه می دهند.

چگونه می توانم نمونه هایی از تصاویر تولید شده توسط DALL-E AI را ببینم؟

بهترین راه برای دیدن نمونه هایی از تصاویر تولید شده توسط هوش مصنوعی با استفاده از DALL-E این است حساب اینستاگرام آنها @openaidalle را دنبال کنید که در آن زیباترین نسل های خود را به اشتراک می گذارند:

اینستاگرام یا DALL-E
نمای کلی اکانت اینستاگرام DALL-E

چگونه DALL-E 2 را تست کنیم؟ قیمت چند خواهد بود؟

برای آزمایش DALL-E 2، باید در لیست انتظار در وب سایت رسمی اختصاص داده شده به هوش مصنوعی ثبت نام کنید:

OpenAI اعلام کرد هوش مصنوعی به زودی در نسخه بتا برای 1 میلیون کاربر در ابتدا قابل دسترسی خواهد بود.

برای بتای آن، هر کاربر مهمان یک دریافت خواهد کرد بسته 50 اعتبار رایگان برای استفاده در ماه اول استفاده.

سپس حساب رایگان 15 اعتبار در ماه ارائه می دهد.

هر اعتبار 4 نوع تصویر از همان اعلان یا 3 نوع تصویر در صورت درخواست تغییر یا ایجاد تغییر ایجاد می کند.

در طول این مرحله بتا، سیستمی از اعتبار برای خرید ارائه خواهد شد. کاربران مهمان می توانند 115 اعتبار اضافی را با قیمت 15 دلار سفارش دهند. 115 اعتبار در مجموع 460 تصویر با هوش مصنوعی تولید می کند (115 نسل یا تغییرات).

آیا تصاویر تولید شده توسط DALL-E فاقد حقوق هستند؟

در حالی که DALL-E را نمی توان با سایت های تصویری بدون حق امتیاز مقایسه کرد، کاربران هوش مصنوعی از حق استفاده کامل از تصاویری که تولید می کنند برخوردار خواهند بود. بنابراین این امکان برای آنها وجود خواهد داشت که از تصاویر برای مقاصد تجاری (خبرنامه، تصویرسازی مقالات، مونتاژهای گرافیکی، مونتاژهای ویدئویی، جلد کتاب، استوری بورد، فیلم و غیره) یا فروش مستقیم آنها استفاده کنند.

محدودیت های DALL-E چیست؟

DALL-E برای تولید تصاویر از متن یا تصاویر آموزش دیده است، اما محدودیت هایی دارد. او فقط می تواند تصاویری از آنچه قبلا دیده است ایجاد کند و نمی تواند معنی و زمینه کلمات را تفسیر کند.

به دلایل واضح، OpenAI همچنین توانایی DALL-E 2 را برای تولید تصاویر خشونت آمیز، نفرت انگیز یا بزرگسالان محدود کرده است.. با حذف صریح ترین محتوا از داده های آموزشی، OpenAI میزان قرار گرفتن DALL-E 2 با این مفاهیم را به حداقل رسانده است. این شرکت همچنین از تکنیک‌های پیشرفته‌ای برای جلوگیری از نسل واقعی چهره‌های افراد واقعی از جمله چهره‌های عمومی استفاده کرد.

خط‌مشی محتوای OpenAI همچنین به کاربران اجازه نمی‌دهد محتوای خشونت‌آمیز، بزرگسالان یا سیاسی در میان سایر دسته‌ها تولید کنند. OpenAi این حق را برای خود محفوظ می دارد که در صورتی که فیلترهای موجود پیام های متنی و آپلودهای تصویری را که ممکن است خط مشی های آنها را نقض می کنند شناسایی کنند، تولید تصویر را مسدود کند. همچنین برای جلوگیری از سوء استفاده، سیستم های نظارتی خودکار و انسانی ارائه شده است.





منبع