خبر جدید | آشنایی با Sora – مدل هوش مصنوعی OpenAI برای تبدیل متن به ویدئو | مایفون مگ

0 0 خواندن این مطلب 4 دقیقه زمان میبرد

اخبار و خواندنی های موبایل | آشنایی با Sora – مدل هوش مصنوعی OpenAI برای تبدیل متن به ویدئو | mobile.ir

واحد خبر مایفون مگ : اگر تا کنون حداقل یک بار از ChatGPT استفاده کرده باشید، احتمالا می‌دانید که این بات هوش مصنوعی محصول شرکت OpenAI است. این کمپانی آمریکایی روز پنجشنبه 15 فوریه 2024 (26 بهمن 1402) از جدیدترین مدل هوش مصنوعی خود با عنوان Sora (بر گرفته از کلمه‌ای ژاپنی به معنای آسمان) رونمایی کرد. Sora توانایی تبدیل متن به ویدئو را داشته و با توجه به قابلیت‌های جدیدش می‌تواند استانداردهای هوش مصنوعی مولد را ارتقاء دهد. گفتنی‌ست، Sora نخستین مدل هوش مصنوعی تبدیل متن به ویدئو نیست و پیش از این مدل‌هایی مشابه (مثل Lumiere محصول گوگل) توسعه یافته‌‌اند، اما Sora – حداقل روی کاغذ – برتری‌هایی دارد که در ادامه به آنها اشاره می‌کنیم.

اسکرین‌شات از ویدئوی ساخته شده با موضوع تور گالری هنری با آثاری در سبک‌های مختلف

توانایی هوش مصنوعی در تبدیل متن به ویدئو، اخیرا به جدیدترین عرصه رقابت در بازار هوش مصنوعی مولد تبدیل شده است. در همین راستا، کمپانی‌هایی مثل OpenAI، گوگل و مایکروسافت دیگر به تبدیل متن به تصویر راضی نبوده و به دنبال تثبیت جایگاه خود در بازار تبدیل متن به ویدئو هستند؛ بازاری که برآورد می‌شود حجم درآمدزایی آن تا سال 2032 به 1.3 تریلیون دلار برسد.

Sora در حقیقت یک مدل انتشاری یا diffusion model است که پس از دریافت دستورهای متنی، می‌تواند ویدئوی مورد نظر را در رزولوشن‌ها و نسبت تصویرهای متنوع درست کند. همچنین، Sora می‌تواند با ایجاد تغییر در منظره، نورپردازی و سبک فیلم‌برداری، ویدئوی موجود را ویرایش کند. ایجاد ویدئو بر مبنای تصاویر ثابت و حتی بسط دادن ویدئوی موجود با پر کردن فریم‌های جامانده، از دیگر توانایی‌های Sora اعلام شده است.

مدل هوش مصنوعی Sora در حال حاضر می‌تواند محتوای ویدئویی با رزولوشن فول اچ‌دی را به طول نهایتا یک دقیقه خلق کند. به گفته شرکت سازنده، Sora می‌تواند صحنه‌های پیچیده را به همراه شخصیت‌های متعدد، انواع مختلف حرکت و جزییات دقیق از سوژه و پس‌زمینه، خلق کند. این مدل هوش مصنوعی جدید، ضمن درک دستور متنیِ کاربر، می‌تواند بفهمد که اجزای مورد درخواست در دستور متنی، با چه کم و کیفی در دنیای فیزیکی حضور دارند.

مثل ChatGPT، مدل Sora نیز با استفاده از معماری مبدل (transformer) کار می‌کند. در این معماری، ویدئوها و تصاویر در قالب واحدهای کوچکی از داده تحت عنوان «وصله» یا patch ارائه می‌شوند. فرآیند ساخت ویدئو توسط Sora، از برفک نویزدار آغاز شده و Sora با حذف تدریجی نویزها، به ویدئوی نهایی نزدیک می‌شود.

نقاط قوت

یکی از مواردی که Sora را از دیگر مدل‌ها متمایز می‌کند، توانایی آن در درک دستورهای متنی طولانی است. در یکی از مثال‌های OpenAI، دستور متنی داده شده به Sora بالغ بر 135 کلمه بوده است. نمونه‌هایی که OpenAI برای معرفی Sora ارائه کرده، حاکی از آن است که این مدل هوش مصنوعی جدید قادر است طیف گسترده‌ای از مناظر و شخصیت‌ها – از افراد، حیوانات و هیولاهای پشمالو گرفته تا نمای شهری، منظره طبیعت و حتی نیویورک غرق‌شده زیر آب – را خلق کند.

بخشی از این توانایی به ویژگی‌های کارهای قبلی OpenAI یعنی مدل‌های هوش مصنوعی ChatGPT و Dall-E مربوط می‌شود. مدل Dall-E 3 (تبدیل‌کننده متن به تصویر) در سپتامبر سال گذشته عرضه شد که به گفته استیون شانکلند (Stephen Shankland)، از کارشناسان حوزه هوش مصنوعی، جهشی بزرگ نسبت به Dall-E 2 (عرضه‌شده در سال 2022) محسوب می‌شود. گفتنی‌ست، مدل پیشرفته GPT-4 Turbo نیز در نوامبر سال گذشته رونمایی شد. از قرار معلوم، سازوکار Sora از تکنیک کپشن‌گذاری مجدد (recaptioning) در Dall-E 3 وام گرفته شده که به گفته OpenAI، می‌تواند کپشن‌های به شدت توصیفی را برای داده‌های آموزشی دیداری ایجاد کند.

اسکرین‌شات از ویدئوی ساخته شده با موضوع بازتاب روی شیشه قطار در حومه توکیو

اکثر ویدئوهای نمونه‌ای که با استفاده از Sora ساخته و از سوی OpenAI منتشر شده‌‌اند – به استثنای مواردی مثل نمایش چهره انسان از نزدیک و یا صحنه شنا کردن آبزیان در دریا – به شکل ناباورانه‌ای واقعی به نظر می‌رسند. به جز موارد یادشده، تشخیص اینکه این ویدئوها واقعی هستند یا ساختگی، حقیقتا دشوار است.

OpenAI در این رابطه می‌گوید: «Sora به عنوان شالوده‌ای برای مدل‌هایی که توانایی درک و شبیه‌سازی جهان واقعی را دارند، ایفای نقش می‌کند؛ قابلیتی که به باور ما دستاوردی مهم برای رسیدن به AGI [هوش جامع مصنوعی] خواهد بود.» لازم به ذکر است، هوش جامع مصنوعی شکل پیشرفته‌تری از هوش مصنوعی است که به هوش انسان نزدیک‌تر بوده و توانایی برای اجرای طیف گسترده‌تری از کارها را شامل می‌شود. جالب است که متا و DeepMind نیز برای رسیدن به چنین شاخصه‌ای ابراز علاقه کرده‌اند.

نقاط ضعف

در کنار تمام نقاط قوت Sora، نباید از ضعف‌های این مدل غافل باشیم. خود OpenAI به برخی ضعف‌های این مدل – از جمله ناتوانی در به تصویر کشیدن دقیق اجزای یک منظره پیچیده و یا فهمیدن رابطه علت و معلولی – اذعان دارد. به عنوان مثال، ساخت ویدئو از شخصی که در حال گاز زدن یک کلوچه است به درستی انجام می‌شود، اما ممکن است جای دندان‌های آن شخص پس از گاز زدن، روی کلوچه دیده نشود. جالب است بدانید، Sora گاهی جهت‌های چپ و راست را اشتباه می‌گیرد. توصیف دقیق رویدادهایی که در گذر زمان اتفاق می‌افتند (مثل دنبال کردن مسیر دوربین) نیز یکی دیگر از چالش‌هایی‌ست که ممکن است Sora به‌درستی از پس انجام آن برنیاید.

عرضه

درست مثل مدل Lumiere گوگل، دسترسی به Sora نیز در حال حاضر محدود است. به گفته OpenAI، قرار است مدل هوش مصنوعی Sora به زودی در اختیار گروه‌های ارزیاب و متخصصین، برای اطمینان از عملکرد صحیح در حوزه‌هایی مثل شایعه‌پراکنی، نفرت‌پراکنی و سوگیری و همچنین در اختیار هنرمندان بصری، طراحان و فیلم‌سازان قرار بگیرد. هدف از این کار، دریافت بازخورد از حرفه‌ای‌های این عرصه درباره Sora است.

اسکرین‌شات از ویدئوی ساخته شده با موضوع دو کشتی دزدان دریایی در لیوان چای

OpenAI هنوز زمان دقیق عرضه Sora را اعلام نکرده، اما یادآور شده که پیش از این کار، باید چندین اقدام امنیتی مهم انجام شود. برای نمونه، Sora باید استانداردهای امنیتی حال حاضر OpenAI را احراز کند، از جمله استانداردهایی که از صحنه‌های حاوی خشونت شدید، محتوای جنسی، تصاویر نفرت‌انگیز، شباهت به افراد مشهور و تضییع مالکیت معنوی دیگران ممانعت به عمل می‌آورد.

منبع: http://www.مایفون مگ/news/view-5286-introducing-openai-sora-text-to-video-generative-ai-model.aspx

محمدصادق مجدی29 بهمن 1402

0 0 خواندن این مطلب 4 دقیقه زمان میبرد

خبر جدید | آشنایی با Sora – مدل هوش مصنوعی OpenAI برای تبدیل متن به ویدئو | مایفون مگ

نقاط قوت

نقاط ضعف

عرضه

محمدصادق مجدی

دیدگاهتان را بنویسید لغو پاسخ

در هتلهایی که بر روی ارزش تمرکز دارند, صبحانه های رایگان بزرگتر میشوند

بستنی ساز شکلات رایگان

مشخصات پژو 207 با موتور TU3 توسط ایران خودرو منتشر شد: موتور پژو 206 تیپ 2

عقب گرد آقای بالمر مدیر عامل سابق مایکروسافت بر تکنولوژی لینوکس

تازه درگیر شده اید! فروش یکجا سهام بورس باعث نزول نرخ وام مسکن شد

iPad mini 6 با صفحه نمایش بزرگتر از قبل و قاب باریک تر که طبق ادعای گزارش جدید انتظار می رود در ماه مارس وارد بازار شود.

آیفون 12 محبوب ترین تلفن همراه مجهز به اینترنت 5G می شود و چهار برابر سهم بازار را مانند پرفروش ترین گوشی سامسونگ از آن خود کرده است.

آیفون تاشو توسط شرکت فاکسکان در حال آزمایش است و احتمال دارد در سپتامبر سال 2022 روانه بازار شود.

در آخرین نتایج Benchmark چیپست A14 Bionic عملکرد بهتری نسبت به چیپست Exynos 2100 گلکسی S21 الترا داشته است.

A14 Bionic اپل پرفروش ترین چیپست برای گوشی های هوشمند با صفحه نمایش AMOLED برای سه ماهه سوم سال 2020

انتظار نمی رود سری گوشی های آیفون 2022 به روزرسانی قابل توجهی نسبت به لنز دوربین داشته باشند.

نقاط قوت

نقاط ضعف

عرضه

محمدصادق مجدی

اپل غیرفعال شدن برنامه های تحت وب در اروپا را تأیید کرد

تبلت شیائومی Pad 6S Pro در بازار جهانی عرضه خواهد شد

نوشته های مشابه

به‌روزرسانی iOS 17 قرار بود ساده باشد، اما اکنون ویژگی‌های جالبی برای آن در نظر گرفته شده است

رندر رسمی گوشی برند خودروساز NIO پیش از رونمایی فاش شد

7 نکته و ترفند تلفن گلکسی سامسونگ که باید بدانید

هندزفری گردنی هواوی FreeLace Pro 2 رسما معرفی شد

دیدگاهتان را بنویسید لغو پاسخ

iPad mini 6 با صفحه نمایش بزرگتر از قبل و قاب باریک تر که طبق ادعای گزارش جدید انتظار می رود در ماه مارس وارد بازار شود.

آیفون 12 محبوب ترین تلفن همراه مجهز به اینترنت 5G می شود و چهار برابر سهم بازار را مانند پرفروش ترین گوشی سامسونگ از آن خود کرده است.

آیفون تاشو توسط شرکت فاکسکان در حال آزمایش است و احتمال دارد در سپتامبر سال 2022 روانه بازار شود.

در آخرین نتایج Benchmark چیپست A14 Bionic عملکرد بهتری نسبت به چیپست Exynos 2100 گلکسی S21 الترا داشته است.

A14 Bionic اپل پرفروش ترین چیپست برای گوشی های هوشمند با صفحه نمایش AMOLED برای سه ماهه سوم سال 2020

انتظار نمی رود سری گوشی های آیفون 2022 به روزرسانی قابل توجهی نسبت به لنز دوربین داشته باشند.