Avir Logo
back

تکنولوژی دیپ فیک و آهنگ‌هایی که خوانندگان بعد از مرگشان می‌خوانند

هوش مصنوعی آهنگ تماشا از شادمهر رو با صدای مهستی خوند! این خبر چندی پیش در شبکه‌های اجتماعی پیچید و طرفداران این خواننده ایرانی فقید را شگفت‌زده کرد. آهنگ‌هایی که با هوش مصنوعی ساخته شده‌اند تنها محدود به این آهنگ ایرانی نبوده‌اند. چند وقت پیش، آهنگی با صدای کانیه وست، رپر آمریکایی، بیرون آمد که پس از آن، وی اعلام کرد که اصلاً این آهنگ را نخوانده است! اما پشت پرده این ترانه‌ها چیست؟ پاسخ این سوال در فناوری هوش مصنوعی دیپ فیک (deepfake AI) خلاصه شده است. دوست دارید که با جزئیات این تکنولوژی بیشتر آشنا شوید و ببینید که دیپ فیک چیست و چطور از آن استفاده می‌شود؟ با ما تا انتهای این مطلب همراه باشید.

دیپ فیک چیست؟

هوش مصنوعی دیپ‌فیک یا جعل عمیق (Deepfake) نوعی هوش مصنوعی است که برای ایجاد تصاویر جعلی و همچنین فریب‌های صوتی و تصویری استفاده می‌شود. این اصطلاح هم فناوری و هم محتوای جعلی ناشی از آن را توصیف می‌کند و یک نمونه از یادگیری عمیق و جعلی است.

دیپ‌فیک‌ها معمولاً محتوای منبع موجود را تغییر می‌دهند و صدا یا تصویر یک فرد را با دیگری عوض می‌کنند. این تکنولوژی محتوای صوتی یا تصویری را کاملاً شبیه به نسخه اصلی فرد ایجاد می‌کند؛ دیپ فیک شخصی را در حال انجام یک کار یا گفتن چیزی نشان می‌دهد که آن فرد هرگز آن را انجام نداده یا نگفته است.

بزرگترین خطری که دیپ فیک می‌تواند ایجاد کند، انتشار اطلاعات نادرستی است که به نظر می رسد از منابع قابل اعتماد آمده است و مخاطبان به تقلبی بودن آن شک نمی‌کنن. به عنوان مثال، در سال 2022 یک ویدیوی دیپ فیک از ولدیمیر زلنسکی، رئیس جمهور اوکراین منتشر شد که از سربازانش می‌خواهد تسلیم شوند.

همچنین نگرانی‌هایی در مورد احتمال دخالت در انتخابات و تبلیغات انتخاباتی با استفاده از دیپ فیک مطرح شده است. اگرچه فناوری دیپ فیک تهدیدهای جدی را برای بسیاری از افراد، به‌خصوص افراد مشهور، ایجاد می‌کند، اما کاربردهای قانونی نیز دارد، مانند صدا و سرگرمی بازی های ویدیویی، و برنامه‌های کاربردی پشتیبانی مشتری و پاسخ به تماس‌گیرندگان، مانند خدمات ارسال تماس و پذیرش.

تاریخچه مختصری از فناوری دیپ فیک

در سال 2017 یکی از کاربران Reddit با نام کاربری “دیپ فیک” (deepfake) ویدئوهای مستهجنی را به اشتراک گذاشت که با استفاده از فناوری تغییر چهره ایجاد شده بودند و در آن چهره افراد مشهور را جایگزین چهره سوژه‌های اصلی کرد.

اگرچه فناوری دیپ فیک در صنعت‌های مختلفی استفاده شده است، اما تا به امروز بیش از هر صنعتی دیگری در صنعت پورنوگرافی از آن استفاده شده است. گزارشی که در سال 2019 توسط شرکت امنیت سایبری Sensity (Deeptrace سابق) مستقر در آمستردام منتشر شد، نشان داد که «پورنوگرافی غیرقانونی عمیق 96٪ از کل ویدیوهای دیپ فیک آنلاین را تشکیل می‌دهد.»

اما اینجا نقطه‌ای نیست که داستان دیپ فیک شروع می‌شود، پایان می‌یابد، یا به بهترین وجه موفق به انجام کار می‌شود. فناوری یادگیری عمیق – که شامل نسخه‌های ابتدایی مدل‌هایی است که دیپ‌فیک‌ها می‌سازند و به عنوان رسانه مصنوعی نیز شناخته می‌شوند –  دهه‌ها است که وجود دارد اما قدرت پردازش گرافیکی محدود رایانه‌ها در گذشته، امکان عملی کردن بسیاری از کارها را فراهم نمی‌کرد.

به گفته نیک مک کالوم (Nick McCullum)، یکی از مشارکت کنندگان وبسایت freeCodeCamp، جفری هینتون (Geoffrey Hinton)، روانشناس شناختی و دانشمند علوم کامپیوتر، با معرفی شبکه عصبی مصنوعی، کمک قابل توجهی به مطالعه یادگیری عمیق کرد.

شبکه عصبی مصنوعی هینتون، جزء جدایی‌ناپذیر تکنیک‌های پیشرفته دیپ‌فیک امروزی، قرار بود شباهت زیادی به معماری مغز انسان داشته باشد و سیگنال‌ها را از طریق لایه‌هایی از گره‌ها منتقل کند که مقدار زیادی داده را برای یادگیری و طبقه‌بندی اطلاعات پردازش می‌کنند.

تاریخچه دیپ فیک

شبکه‌های عصبی مصنوعی یا ANN مشابه روشی که نورون‌ها در مغز انسان هنگام پردازش داده‌های دریافتی خود معنا می‌سازند، داده‌های خام (نویز) را از لایه‌های ورودی به لایه‌های میانی (پنهان) خود و در نهایت به لایه خروجی منتقل می‌کنند.

همانطور که خواهیم دید وقتی به بخش نحوه ایجاد یک ویدیو، تصویر یا صوت عمیق جعلی با استفاده از مدل‌های یادگیری عمیق هوش مصنوعی می‌رسیم، دقیق‌ترین خروجی‌های رسانه مصنوعی آن‌هایی هستند که از حجم زیادی از داده های با کیفیت بالا به دست می‌آیند.

برای مثال، برخی از محبوب‌ترین دیپ‌فیک‌ها توسط کریس اومه (Chris Ume)، متخصص جلوه‌های بصری، تهیه شده‌اند در شبکه اجتماعی TikTok افکت‌های بصری فوق‌العاده از تام کروز را به نمایش می‌گذارد.

دیپ فیک تام کروز

اومه در مصاحبه‌ای با برنامه Science Weekly روزنامه گاردین، توضیح داد که چنین دیپ فیک‌های پیچیده‌ای به «مقدار زیادی داده نیاز دارند – تصاویر، ویدیوها و هر اطلاعاتی که می توانید پیدا کنید. سپس این داده‌ها را مرتب و منظم می‌کنید تا فقط بهترین داده‌ها را برای کار خود داشته باشید.»

این فراوانی داده‌های موجود، بخش بزرگی از کارهای اومه است تا ویدیوهای تام کروز را به شکلی واقعی و معتبر نشان دهد. نزدیک به 40 سال است که از این بازیگر هالیوود فیلمبرداری و عکسبرداری شده است، بنابراین حجم انبوهی از داده‌هایی که می‌توان برای آموزش به ماشین (ماشین لرنینگ) استفاده کرد، خروجی کار – یعنی دیپ‌فیک – را به یک نمایش دقیق خیره‌کننده تبدیل می‌کند.

نکته کلیدی در تاریخچه دیپ فیک یا جعل عمیق این است که فناوری دیپ فیک، که مبتنی بر مدل‌های یادگیری عمیق است، برای دهه‌ها وجود داشته است.

یادگیری عمیق، ریشه در علوم شناختی دارد و در طول سال‌ها با تلاش‌های محققان در زمینه‌های مختلف از جمله علوم کامپیوتر، هوش مصنوعی، فیزیولوژی عصبی، سایبرنتیک و منطق پیشرفت کرده است.

نحوه کار دیپ فیک چگونه است؟

دیپ فیک از دو الگوریتم برای ایجاد و اصلاح محتوای جعلی استفاده می‌کند:

  1. مولد (generator)
  2. تمایزدهنده (discriminator)

 مولد، مجموعه داده آموزشی (training data set) را بر اساس خروجی مورد نظر ایجاد می‌کند که محتوای دیجیتال جعلی اولیه را می‌سازد، در حالی که تمایزدهنده، تجزیه و تحلیل می‌کند که نسخه اولیه محتوا چقدر واقعی یا جعلی است. این فرآیند تکرار می‌شود و به تولیدکننده اجازه می‌دهد تا در ایجاد محتوای واقعی بهتر عمل کند و متمایزکننده در تشخیص نقص‌ها برای اصلاح مولد ماهرتر شود.

ترکیبی از الگوریتم‌های مولد و تفکیک‌کننده، یک شبکه مولد تخاصمی (Generative Adversarial Network) یا به اختصار GAN ایجاد می‌کند. یک GAN از یادگیری عمیق برای تشخیص الگوها در تصاویر واقعی استفاده می کند و سپس از آن الگوها برای ایجاد تصویر یا ویدیویی جعلی استفاده می‌کند. در زمان ایجاد یک عکس عمیق، یک سیستم GAN عکس‌های هدف را از زوایای مختلفی مشاهده می‌کند تا تمام جزئیات و چشم اندازها را ثبت کند. در زمان ایجاد یک ویدیوی دیپ فیک، GAN ویدیو را از زوایای مختلف مشاهده می کند و همچنین رفتار، حرکت و الگوهای گفتار را تجزیه و تحلیل می‌کند. سپس این اطلاعات چندین بار از طریق تشخیص دهنده اجرا می‌شود تا واقع‌گرایی تصویر یا ویدیوی نهایی را تنظیم کند.

دیپ فیک چگونه کار می کند؟

ویدیوهای Deepfake به یکی از دو روش ایجاد می‌شوند. آنها می‌توانند از یک منبع ویدیویی اصلی برای هدف استفاده کنند، یعنی فرد مجبور می‌شود کارهایی را که هرگز انجام نداده است بگوید و انجام دهد. یا می‌توانند چهره فرد را با ویدیوی فرد دیگری که به عنوان تعویض چهره یا تغییر چهره نیز شناخته می‌شود، عوض کنند.

در زیر چند رویکرد خاص برای ایجاد دیپ فیک را معرفی می‌کنیم:

·        دیپ فیک‌هایی با منبع ویدیویی

وقتی از یک ویدیوی به عنوان منبع برای ساخت دیپ فیک استفاده می‌کنید، یک رمزگذار خودکار عمیق مبتنی بر شبکه عصبی، محتوا را برای درک ویژگی‌های مرتبط هدف، مانند حالات چهره و زبان بدن، تجزیه و تحلیل می‌کند. سپس این ویژگی‌ها را به ویدیوی اصلی تحمیل می‌کند. این رمزگذار خودکار شامل یک اینکودر یا رمزگذار است که ویژگی‌های مربوطه را رمزگذاری می‌کند.  همچنین یک رمزگشا را شامل می‌شود که این ویژگی‌ها را به ویدیوی مورد نظر تحمیل می‌کند.

·        دیپ فیک‌های صوتی

برای دیپ‌فیک‌های صوتی، یک GAN صدای یک فرد را شبیه‌سازی می‌کند، مدلی را بر اساس الگوهای صوتی ایجاد می‌کند و از آن مدل برای وادار کردن صدا برای بیان هر چیزی که سازنده می‌خواهد، استفاده می‌کند. این تکنیک معمولا توسط توسعه‌دهندگان بازی‌های ویدیویی استفاده می‌شود.

·        همگام سازی لب

همگام سازی لب یکی دیگر از روش‌های رایج مورد استفاده در دیپ فیک است. در اینجا، دیپ فیک یک صدای ضبط شده را به ویدیو می‌دهد و به نظر می‌رسد که شخص در ویدیو در حال صحبت کردن کلمات ضبط شده است. اگر صدا به خودی خود یک دیپ فیک باشد، پس ویدیو لایه دیگری از فریب را اضافه می‌کند. این تکنیک توسط شبکه های عصبی مکرر پشتیبانی می‌شود.

فناوری مورد نیاز برای توسعه دیپ فیک

با توسعه و پیشرفت فناوری‌های زیر، توسعه دیپ‌فیک آسان‌تر، دقیق‌تر و رایج‌تر می‌شود:

  • فناوری شبکه عصبی GAN در توسعه تمام محتوای دیپ فیک، با استفاده از الگوریتم‌های مولد و تمایزدهنده استفاده می‌شود.
  • شبکه‌های عصبی کانولوشنال یا CNN، الگوها را در داده‌های بصری تحلیل می‌کنند. CNN‌ها برای تشخیص چهره و ردیابی حرکت استفاده می‌شوند.
  • رمزگذارهای خودکار یک فناوری شبکه عصبی هستند که ویژگی‌های مربوط به یک هدف مانند حالات چهره و حرکات بدن را شناسایی می‌کنند و سپس این ویژگی‌ها را به ویدیوی منبع تحمیل می‌کنند.
  • پردازش زبان طبیعی یا NLP برای ایجاد صدای دیپ فیک استفاده می‌شود. الگوریتم‌های NLP ویژگی‌های گفتار هدف را تجزیه و تحلیل می‌کنند و سپس متن اصلی را با استفاده از آن ویژگی‌ها تولید می‌کنند.
  • محاسبات با کارایی بالا نوعی از محاسبات هستند که توان محاسباتی لازم و مورد نیاز دیپ فیک را فراهم می‌کنند.

بر اساس گزارش وزارت امنیت داخلی ایالات متحده آمریکا در مورد «تهدید فزاینده هویت‌های دیپ فیک»، چندین ابزار معمولاً برای تولید دیپ فیک در عرض چند ثانیه استفاده می‌شوند. این ابزارها عبارتند از Deep Art Effects، Deepswap، Deep Video Portraits، FaceApp، FaceMagic، MyHeritage، Wav2Lip، Wombo و Zao.

تشخیص چهره در دیپ فیک

کاربرد دیپ فیک چیست؟

استفاده از دیپ فیک در هر زمینه‌ای امکان‌پذیر است. کاربردهای اصلی شامل موارد زیر است:

  • هنر: دیپ فیک برای تولید موسیقی جدید با استفاده از المان‌های اصلی و موجود آثار یک هنرمند استفاده می‌شود.
  • باج‌گیری و آسیب به شهرت: نمونه هایی از این موارد زمانی است که یک تصویر هدف در موقعیتی غیرقانونی، نامناسب یا به گونه‌ای دیگر مانند دروغ گفتن به عموم، درگیر شدن در اعمال جنسی آشکار یا مصرف مواد مخدر قرار می‌گیرد. این ویدئوها برای اخاذی از یک قربانی، خراب کردن شهرت یک فرد، انتقام گرفتن یا صرفاً زورگویی سایبری (سایبر بولینگ) استفاده می‌شود. رایج ترین باج‌گیری یا استفاده انتقام‌جویانه از دیپ فیک، پورن عمیق جعلی غیر توافقی است که به عنوان پورن انتقامی نیز شناخته می‌شود.
  • خدمات پاسخگویی به تماس گیرنده: این سرویس‌ها از دیپ فیک برای ارائه پاسخ‌های شخصی به درخواست‌های تماس‌گیرنده استفاده می‌کنند که شامل ارسال تماس و سایر خدمات پذیرش می‌شود.
  • پشتیبانی تلفنی مشتری: این سرویس‌ها از صداهای جعلی برای کارهای ساده‌ای مانند بررسی موجودی حساب یا ثبت شکایت استفاده می‌کنند.
  • سرگرمی: فیلم‌های هالیوودی و بازی‌های ویدیویی صدای بازیگران را برای صحنه‌های خاصی شبیه‌سازی و دستکاری می‌کنند. رسانه‌های سرگرمی از این ویژگی زمانی استفاده می‌کنند تا صحنه‌ای را بسازند که امکان فیلم‌برداری آن وجود ندارد، یا بخواند در وقت بازیگر و تیم فیملبرداری صرفه‌جویی کنند. دیپ فیک همچنین برای محتوای طنز و تقلید استفاده می‌شود که در آن مخاطب متوجه می‌شود ویدیو واقعی نیست اما از موقعیت طنزآمیزی که دیپ فیک ایجاد کرده لذت می‌برد. به عنوان مثال می توان به دیپ فیک سال 2023 دواین «راک» جانسون در نقش دورا کاوشگر (Dora the Explorer) اشاره کرد.
  • شواهد و مدارک تقلبی: این کاربرد دیپ فیک شامل ساختن تصاویر یا صداهای نادرست است که می ‌واند به عنوان مدرکی دال بر گناهکار بودم یا بی‌گناهی در یک پرونده قانونی استفاده شود.
  • تقلب و جعل: دیپ فیک برای جعل هویت یک فرد برای به دست آوردن اطلاعات شناسایی شخصی (PII) مانند شماره حساب بانکی و کارت اعتباری استفاده می‌شود. این تقلب ممکن است گاهی اوقات شامل جعل هویت مدیران شرکت‌ها یا سایر کارمندان با اعتبار یک سازمان برای دسترسی به اطلاعات حساس باشد که یک تهدید بزرگ امنیت سایبری است.
  • اطلاعات غلط و دستکاری سیاسی: ویدئوهای دیپ فیک سیاستمداران یا منابع مورد اعتماد، برای تحت تاثیر قرار دادن افکار عمومی استفاده می‌شود. گاهی اوقات از این کاربرد دیپ فیک به عنوان انتشار اخبار جعلی یاد می‌شود.
  • دستکاری سهام: جعل عمیق گاهی برای تأثیرگذاری بر قیمت سهام شرکت‌ها استفاده می‌شود. به عنوان مثال، یک ویدیوی جعلی از یک مدیر اجرایی که اظهارات مخربی درباره شرکت خود می‌کند، می تواند قیمت سهام آن را کاهش دهد. یک ویدیوی جعلی درباره پیشرفت تکنولوژیک یا عرضه محصول می‌تواند سهام یک شرکت را افزایش دهد.
  • ارسال پیام متنی: در گزارش وزارت امنیت داخلی ایالات متحده با عنوان “تهدید فزاینده هویت‌های عمیق جعلی” از پیا‌های متنی به عنوان استفاده آینده از فناوری دیپ فیک یاد شده است. بر اساس این گزارش، جاعلان و تهدیدکنندگان می‌توانند از تکنیک‌های دیپ‌فیک برای تکرار سبک پیام‌رسانی کاربر استفاده کنند.
کاربردهای دیپ فیک

روش های تشخیص دیپ فیک

چندین روش برتر برای شناسایی حملات دیپ فیک وجود دارد. موارد زیر نشانه‌هایی از محتوای دیپ فیک احتمالی هستند:

  • وضعیت غیرمعمول یا نامناسب صورت؛
  • حرکت غیر طبیعی صورت یا بدن؛
  • رنگ‌های غیر طبیعی؛
  • ویدیوهایی که با بزرگنمایی یا کوچک‌نمایی غیرمعمولی و عجیب به نظر می‌رسند؛
  • صداهای ناسازگار؛
  • پلک نزدن افراد.

در دیپ فیک متنی، چند شاخص برای شناسایی وجود دارد:

  • وجود غلط املایی؛
  • جملاتی که به طور طبیعی نگارش نشده‌اند یا اطلاعات آن‌ها نادرست است؛
  • آدرس ایمیل مشکوک؛
  • عبارتی که با لحن و گفتار فرستنده فرضی مطابقت ندارد؛
  • پیام های خارج از متن که به هیچ بحث، رویداد یا موضوعی مرتبط نیستند.

با این حال، با پیشرفت هوش مصنوعی، بعضی از این شاخص‌های شناسایی رفع شده‌اند. برای مثال ابزارهایی با هوش مصنوعی تهیه به طور پیوسته بر برخی از این شاخص‌ها غلبه می کند، مانند ابزارهایی که پلک زدن طبیعی را ایجاد می‌کنند.

تکنولوژی مورد استفاده در دیپ فیک

نمونه‌های پر سر و صدای دیپ فیک در جهان

چندین نمونه قابل توجه از دیپ فیک وجود دارد، از جمله موارد زیر:

  • مارک زاکربرگ، بنیانگذار فیس بوک، قربانی یک دیپ فیک شد که نشان می‌داد فیس بوک چگونه کاربران خود را به تصاحب در آورده. این ویدئو برای نشان دادن این طراحی شده بود که چگونه پلتفرم‌های رسانه های اجتماعی مانند فیس بوک می‌توانند برای فریب مردم استفاده شوند.
  • جو بایدن، رئیس جمهور ایالات متحده، در سال 2020 قربانی دیپ فیک‌های متعددی شد که او را در حالات اغراق آمیز زوال عقلی و شناختی نشان می‌داد. هدف این دیپ فیک‌ها تاثیر بر نتیجه انتخابات ریاست جمهوری بوده است. دیگر رؤسای جمهور آمریکا مانند باراک اوباما و دونالد ترامپ نیز قربانی ویدیوهای دیپ فیک شده‌اند که برخی از آن‌ها برای انتشار اطلاعات نادرست و برخی به عنوان طنز و سرگرمی هستند.
  • در جنگ میان روسیه و اوکراین در سال 2022، ویدیویی از رئیس جمهور اوکراین ولودومیر زلنسکی به تصویر کشیده شد که به سربازان خود می‌گوید تسلیم روس‌ها شوند.
دیپ فیک و مشکلات سیاسی

خرید محصولات هوش مصنوعی برای استفاده مفید از دیپ فیک

همان‌طور که اشاره کردیم، اگرچه دیپ فیک در بسیاری از موارد برای کارهای غیر قانونی و جعل استفاده می‌شود، اما در صنایعی مانند فیلم‌سازی، هنر و ارتباط با مشتری نیز کاربردهای بسیار مفیدی دارد و می‌تواند در زمان و هزینه‌های برندها صرفه‌جویی کند. شرکت هوش مصنوعی آویر با محصولات پیشرفته و تکنولوژی برتر خود در حوزه هوش مصنوعی آماده است تا خدمات به‌روز را به شرکت‌ها و سازمان‌ها ارائه کند. نرم‌افزارها و محصولات شرکت آویر از جدیدترین و به‌روزترین الگوریتم‌های هوش مصنوعی و یادگیری ماشین ساخته شده و با کامل‌ترین دیتاست‌ها آموزش دیده‌اند به‌نحوی که دقیق‌ترین و سریع‌ترین پاسخ را به شما ارائه می‌دهد. برای اطلاع از محصولات و خدمات آویر می‌توانید به قسمت محصولات هوش مصنوعی سایت یا قسمت ارتباط با ما  سر بزنید.


بیشتر بدانید