هوش مصنوعی آهنگ تماشا از شادمهر رو با صدای مهستی خوند! این خبر چندی پیش در شبکههای اجتماعی پیچید و طرفداران این خواننده ایرانی فقید را شگفتزده کرد. آهنگهایی که با هوش مصنوعی ساخته شدهاند تنها محدود به این آهنگ ایرانی نبودهاند. چند وقت پیش، آهنگی با صدای کانیه وست، رپر آمریکایی، بیرون آمد که پس از آن، وی اعلام کرد که اصلاً این آهنگ را نخوانده است! اما پشت پرده این ترانهها چیست؟ پاسخ این سوال در فناوری هوش مصنوعی دیپ فیک (deepfake AI) خلاصه شده است. دوست دارید که با جزئیات این تکنولوژی بیشتر آشنا شوید و ببینید که دیپ فیک چیست و چطور از آن استفاده میشود؟ با ما تا انتهای این مطلب همراه باشید.
دیپ فیک چیست؟
هوش مصنوعی دیپفیک یا جعل عمیق (Deepfake) نوعی هوش مصنوعی است که برای ایجاد تصاویر جعلی و همچنین فریبهای صوتی و تصویری استفاده میشود. این اصطلاح هم فناوری و هم محتوای جعلی ناشی از آن را توصیف میکند و یک نمونه از یادگیری عمیق و جعلی است.
دیپفیکها معمولاً محتوای منبع موجود را تغییر میدهند و صدا یا تصویر یک فرد را با دیگری عوض میکنند. این تکنولوژی محتوای صوتی یا تصویری را کاملاً شبیه به نسخه اصلی فرد ایجاد میکند؛ دیپ فیک شخصی را در حال انجام یک کار یا گفتن چیزی نشان میدهد که آن فرد هرگز آن را انجام نداده یا نگفته است.
بزرگترین خطری که دیپ فیک میتواند ایجاد کند، انتشار اطلاعات نادرستی است که به نظر می رسد از منابع قابل اعتماد آمده است و مخاطبان به تقلبی بودن آن شک نمیکنن. به عنوان مثال، در سال 2022 یک ویدیوی دیپ فیک از ولدیمیر زلنسکی، رئیس جمهور اوکراین منتشر شد که از سربازانش میخواهد تسلیم شوند.
همچنین نگرانیهایی در مورد احتمال دخالت در انتخابات و تبلیغات انتخاباتی با استفاده از دیپ فیک مطرح شده است. اگرچه فناوری دیپ فیک تهدیدهای جدی را برای بسیاری از افراد، بهخصوص افراد مشهور، ایجاد میکند، اما کاربردهای قانونی نیز دارد، مانند صدا و سرگرمی بازی های ویدیویی، و برنامههای کاربردی پشتیبانی مشتری و پاسخ به تماسگیرندگان، مانند خدمات ارسال تماس و پذیرش.
تاریخچه مختصری از فناوری دیپ فیک
در سال 2017 یکی از کاربران Reddit با نام کاربری “دیپ فیک” (deepfake) ویدئوهای مستهجنی را به اشتراک گذاشت که با استفاده از فناوری تغییر چهره ایجاد شده بودند و در آن چهره افراد مشهور را جایگزین چهره سوژههای اصلی کرد.
اگرچه فناوری دیپ فیک در صنعتهای مختلفی استفاده شده است، اما تا به امروز بیش از هر صنعتی دیگری در صنعت پورنوگرافی از آن استفاده شده است. گزارشی که در سال 2019 توسط شرکت امنیت سایبری Sensity (Deeptrace سابق) مستقر در آمستردام منتشر شد، نشان داد که «پورنوگرافی غیرقانونی عمیق 96٪ از کل ویدیوهای دیپ فیک آنلاین را تشکیل میدهد.»
اما اینجا نقطهای نیست که داستان دیپ فیک شروع میشود، پایان مییابد، یا به بهترین وجه موفق به انجام کار میشود. فناوری یادگیری عمیق – که شامل نسخههای ابتدایی مدلهایی است که دیپفیکها میسازند و به عنوان رسانه مصنوعی نیز شناخته میشوند – دههها است که وجود دارد اما قدرت پردازش گرافیکی محدود رایانهها در گذشته، امکان عملی کردن بسیاری از کارها را فراهم نمیکرد.
به گفته نیک مک کالوم (Nick McCullum)، یکی از مشارکت کنندگان وبسایت freeCodeCamp، جفری هینتون (Geoffrey Hinton)، روانشناس شناختی و دانشمند علوم کامپیوتر، با معرفی شبکه عصبی مصنوعی، کمک قابل توجهی به مطالعه یادگیری عمیق کرد.
شبکه عصبی مصنوعی هینتون، جزء جداییناپذیر تکنیکهای پیشرفته دیپفیک امروزی، قرار بود شباهت زیادی به معماری مغز انسان داشته باشد و سیگنالها را از طریق لایههایی از گرهها منتقل کند که مقدار زیادی داده را برای یادگیری و طبقهبندی اطلاعات پردازش میکنند.
شبکههای عصبی مصنوعی یا ANN مشابه روشی که نورونها در مغز انسان هنگام پردازش دادههای دریافتی خود معنا میسازند، دادههای خام (نویز) را از لایههای ورودی به لایههای میانی (پنهان) خود و در نهایت به لایه خروجی منتقل میکنند.
همانطور که خواهیم دید وقتی به بخش نحوه ایجاد یک ویدیو، تصویر یا صوت عمیق جعلی با استفاده از مدلهای یادگیری عمیق هوش مصنوعی میرسیم، دقیقترین خروجیهای رسانه مصنوعی آنهایی هستند که از حجم زیادی از داده های با کیفیت بالا به دست میآیند.
برای مثال، برخی از محبوبترین دیپفیکها توسط کریس اومه (Chris Ume)، متخصص جلوههای بصری، تهیه شدهاند در شبکه اجتماعی TikTok افکتهای بصری فوقالعاده از تام کروز را به نمایش میگذارد.
اومه در مصاحبهای با برنامه Science Weekly روزنامه گاردین، توضیح داد که چنین دیپ فیکهای پیچیدهای به «مقدار زیادی داده نیاز دارند – تصاویر، ویدیوها و هر اطلاعاتی که می توانید پیدا کنید. سپس این دادهها را مرتب و منظم میکنید تا فقط بهترین دادهها را برای کار خود داشته باشید.»
این فراوانی دادههای موجود، بخش بزرگی از کارهای اومه است تا ویدیوهای تام کروز را به شکلی واقعی و معتبر نشان دهد. نزدیک به 40 سال است که از این بازیگر هالیوود فیلمبرداری و عکسبرداری شده است، بنابراین حجم انبوهی از دادههایی که میتوان برای آموزش به ماشین (ماشین لرنینگ) استفاده کرد، خروجی کار – یعنی دیپفیک – را به یک نمایش دقیق خیرهکننده تبدیل میکند.
نکته کلیدی در تاریخچه دیپ فیک یا جعل عمیق این است که فناوری دیپ فیک، که مبتنی بر مدلهای یادگیری عمیق است، برای دههها وجود داشته است.
یادگیری عمیق، ریشه در علوم شناختی دارد و در طول سالها با تلاشهای محققان در زمینههای مختلف از جمله علوم کامپیوتر، هوش مصنوعی، فیزیولوژی عصبی، سایبرنتیک و منطق پیشرفت کرده است.
نحوه کار دیپ فیک چگونه است؟
دیپ فیک از دو الگوریتم برای ایجاد و اصلاح محتوای جعلی استفاده میکند:
- مولد (generator)
- تمایزدهنده (discriminator)
مولد، مجموعه داده آموزشی (training data set) را بر اساس خروجی مورد نظر ایجاد میکند که محتوای دیجیتال جعلی اولیه را میسازد، در حالی که تمایزدهنده، تجزیه و تحلیل میکند که نسخه اولیه محتوا چقدر واقعی یا جعلی است. این فرآیند تکرار میشود و به تولیدکننده اجازه میدهد تا در ایجاد محتوای واقعی بهتر عمل کند و متمایزکننده در تشخیص نقصها برای اصلاح مولد ماهرتر شود.
ترکیبی از الگوریتمهای مولد و تفکیککننده، یک شبکه مولد تخاصمی (Generative Adversarial Network) یا به اختصار GAN ایجاد میکند. یک GAN از یادگیری عمیق برای تشخیص الگوها در تصاویر واقعی استفاده می کند و سپس از آن الگوها برای ایجاد تصویر یا ویدیویی جعلی استفاده میکند. در زمان ایجاد یک عکس عمیق، یک سیستم GAN عکسهای هدف را از زوایای مختلفی مشاهده میکند تا تمام جزئیات و چشم اندازها را ثبت کند. در زمان ایجاد یک ویدیوی دیپ فیک، GAN ویدیو را از زوایای مختلف مشاهده می کند و همچنین رفتار، حرکت و الگوهای گفتار را تجزیه و تحلیل میکند. سپس این اطلاعات چندین بار از طریق تشخیص دهنده اجرا میشود تا واقعگرایی تصویر یا ویدیوی نهایی را تنظیم کند.
ویدیوهای Deepfake به یکی از دو روش ایجاد میشوند. آنها میتوانند از یک منبع ویدیویی اصلی برای هدف استفاده کنند، یعنی فرد مجبور میشود کارهایی را که هرگز انجام نداده است بگوید و انجام دهد. یا میتوانند چهره فرد را با ویدیوی فرد دیگری که به عنوان تعویض چهره یا تغییر چهره نیز شناخته میشود، عوض کنند.
در زیر چند رویکرد خاص برای ایجاد دیپ فیک را معرفی میکنیم:
· دیپ فیکهایی با منبع ویدیویی
وقتی از یک ویدیوی به عنوان منبع برای ساخت دیپ فیک استفاده میکنید، یک رمزگذار خودکار عمیق مبتنی بر شبکه عصبی، محتوا را برای درک ویژگیهای مرتبط هدف، مانند حالات چهره و زبان بدن، تجزیه و تحلیل میکند. سپس این ویژگیها را به ویدیوی اصلی تحمیل میکند. این رمزگذار خودکار شامل یک اینکودر یا رمزگذار است که ویژگیهای مربوطه را رمزگذاری میکند. همچنین یک رمزگشا را شامل میشود که این ویژگیها را به ویدیوی مورد نظر تحمیل میکند.
· دیپ فیکهای صوتی
برای دیپفیکهای صوتی، یک GAN صدای یک فرد را شبیهسازی میکند، مدلی را بر اساس الگوهای صوتی ایجاد میکند و از آن مدل برای وادار کردن صدا برای بیان هر چیزی که سازنده میخواهد، استفاده میکند. این تکنیک معمولا توسط توسعهدهندگان بازیهای ویدیویی استفاده میشود.
· همگام سازی لب
همگام سازی لب یکی دیگر از روشهای رایج مورد استفاده در دیپ فیک است. در اینجا، دیپ فیک یک صدای ضبط شده را به ویدیو میدهد و به نظر میرسد که شخص در ویدیو در حال صحبت کردن کلمات ضبط شده است. اگر صدا به خودی خود یک دیپ فیک باشد، پس ویدیو لایه دیگری از فریب را اضافه میکند. این تکنیک توسط شبکه های عصبی مکرر پشتیبانی میشود.
فناوری مورد نیاز برای توسعه دیپ فیک
با توسعه و پیشرفت فناوریهای زیر، توسعه دیپفیک آسانتر، دقیقتر و رایجتر میشود:
- فناوری شبکه عصبی GAN در توسعه تمام محتوای دیپ فیک، با استفاده از الگوریتمهای مولد و تمایزدهنده استفاده میشود.
- شبکههای عصبی کانولوشنال یا CNN، الگوها را در دادههای بصری تحلیل میکنند. CNNها برای تشخیص چهره و ردیابی حرکت استفاده میشوند.
- رمزگذارهای خودکار یک فناوری شبکه عصبی هستند که ویژگیهای مربوط به یک هدف مانند حالات چهره و حرکات بدن را شناسایی میکنند و سپس این ویژگیها را به ویدیوی منبع تحمیل میکنند.
- پردازش زبان طبیعی یا NLP برای ایجاد صدای دیپ فیک استفاده میشود. الگوریتمهای NLP ویژگیهای گفتار هدف را تجزیه و تحلیل میکنند و سپس متن اصلی را با استفاده از آن ویژگیها تولید میکنند.
- محاسبات با کارایی بالا نوعی از محاسبات هستند که توان محاسباتی لازم و مورد نیاز دیپ فیک را فراهم میکنند.
بر اساس گزارش وزارت امنیت داخلی ایالات متحده آمریکا در مورد «تهدید فزاینده هویتهای دیپ فیک»، چندین ابزار معمولاً برای تولید دیپ فیک در عرض چند ثانیه استفاده میشوند. این ابزارها عبارتند از Deep Art Effects، Deepswap، Deep Video Portraits، FaceApp، FaceMagic، MyHeritage، Wav2Lip، Wombo و Zao.
کاربرد دیپ فیک چیست؟
استفاده از دیپ فیک در هر زمینهای امکانپذیر است. کاربردهای اصلی شامل موارد زیر است:
- هنر: دیپ فیک برای تولید موسیقی جدید با استفاده از المانهای اصلی و موجود آثار یک هنرمند استفاده میشود.
- باجگیری و آسیب به شهرت: نمونه هایی از این موارد زمانی است که یک تصویر هدف در موقعیتی غیرقانونی، نامناسب یا به گونهای دیگر مانند دروغ گفتن به عموم، درگیر شدن در اعمال جنسی آشکار یا مصرف مواد مخدر قرار میگیرد. این ویدئوها برای اخاذی از یک قربانی، خراب کردن شهرت یک فرد، انتقام گرفتن یا صرفاً زورگویی سایبری (سایبر بولینگ) استفاده میشود. رایج ترین باجگیری یا استفاده انتقامجویانه از دیپ فیک، پورن عمیق جعلی غیر توافقی است که به عنوان پورن انتقامی نیز شناخته میشود.
- خدمات پاسخگویی به تماس گیرنده: این سرویسها از دیپ فیک برای ارائه پاسخهای شخصی به درخواستهای تماسگیرنده استفاده میکنند که شامل ارسال تماس و سایر خدمات پذیرش میشود.
- پشتیبانی تلفنی مشتری: این سرویسها از صداهای جعلی برای کارهای سادهای مانند بررسی موجودی حساب یا ثبت شکایت استفاده میکنند.
- سرگرمی: فیلمهای هالیوودی و بازیهای ویدیویی صدای بازیگران را برای صحنههای خاصی شبیهسازی و دستکاری میکنند. رسانههای سرگرمی از این ویژگی زمانی استفاده میکنند تا صحنهای را بسازند که امکان فیلمبرداری آن وجود ندارد، یا بخواند در وقت بازیگر و تیم فیملبرداری صرفهجویی کنند. دیپ فیک همچنین برای محتوای طنز و تقلید استفاده میشود که در آن مخاطب متوجه میشود ویدیو واقعی نیست اما از موقعیت طنزآمیزی که دیپ فیک ایجاد کرده لذت میبرد. به عنوان مثال می توان به دیپ فیک سال 2023 دواین «راک» جانسون در نقش دورا کاوشگر (Dora the Explorer) اشاره کرد.
- شواهد و مدارک تقلبی: این کاربرد دیپ فیک شامل ساختن تصاویر یا صداهای نادرست است که می واند به عنوان مدرکی دال بر گناهکار بودم یا بیگناهی در یک پرونده قانونی استفاده شود.
- تقلب و جعل: دیپ فیک برای جعل هویت یک فرد برای به دست آوردن اطلاعات شناسایی شخصی (PII) مانند شماره حساب بانکی و کارت اعتباری استفاده میشود. این تقلب ممکن است گاهی اوقات شامل جعل هویت مدیران شرکتها یا سایر کارمندان با اعتبار یک سازمان برای دسترسی به اطلاعات حساس باشد که یک تهدید بزرگ امنیت سایبری است.
- اطلاعات غلط و دستکاری سیاسی: ویدئوهای دیپ فیک سیاستمداران یا منابع مورد اعتماد، برای تحت تاثیر قرار دادن افکار عمومی استفاده میشود. گاهی اوقات از این کاربرد دیپ فیک به عنوان انتشار اخبار جعلی یاد میشود.
- دستکاری سهام: جعل عمیق گاهی برای تأثیرگذاری بر قیمت سهام شرکتها استفاده میشود. به عنوان مثال، یک ویدیوی جعلی از یک مدیر اجرایی که اظهارات مخربی درباره شرکت خود میکند، می تواند قیمت سهام آن را کاهش دهد. یک ویدیوی جعلی درباره پیشرفت تکنولوژیک یا عرضه محصول میتواند سهام یک شرکت را افزایش دهد.
- ارسال پیام متنی: در گزارش وزارت امنیت داخلی ایالات متحده با عنوان “تهدید فزاینده هویتهای عمیق جعلی” از پیاهای متنی به عنوان استفاده آینده از فناوری دیپ فیک یاد شده است. بر اساس این گزارش، جاعلان و تهدیدکنندگان میتوانند از تکنیکهای دیپفیک برای تکرار سبک پیامرسانی کاربر استفاده کنند.
روش های تشخیص دیپ فیک
چندین روش برتر برای شناسایی حملات دیپ فیک وجود دارد. موارد زیر نشانههایی از محتوای دیپ فیک احتمالی هستند:
- وضعیت غیرمعمول یا نامناسب صورت؛
- حرکت غیر طبیعی صورت یا بدن؛
- رنگهای غیر طبیعی؛
- ویدیوهایی که با بزرگنمایی یا کوچکنمایی غیرمعمولی و عجیب به نظر میرسند؛
- صداهای ناسازگار؛
- پلک نزدن افراد.
در دیپ فیک متنی، چند شاخص برای شناسایی وجود دارد:
- وجود غلط املایی؛
- جملاتی که به طور طبیعی نگارش نشدهاند یا اطلاعات آنها نادرست است؛
- آدرس ایمیل مشکوک؛
- عبارتی که با لحن و گفتار فرستنده فرضی مطابقت ندارد؛
- پیام های خارج از متن که به هیچ بحث، رویداد یا موضوعی مرتبط نیستند.
با این حال، با پیشرفت هوش مصنوعی، بعضی از این شاخصهای شناسایی رفع شدهاند. برای مثال ابزارهایی با هوش مصنوعی تهیه به طور پیوسته بر برخی از این شاخصها غلبه می کند، مانند ابزارهایی که پلک زدن طبیعی را ایجاد میکنند.
نمونههای پر سر و صدای دیپ فیک در جهان
چندین نمونه قابل توجه از دیپ فیک وجود دارد، از جمله موارد زیر:
- مارک زاکربرگ، بنیانگذار فیس بوک، قربانی یک دیپ فیک شد که نشان میداد فیس بوک چگونه کاربران خود را به تصاحب در آورده. این ویدئو برای نشان دادن این طراحی شده بود که چگونه پلتفرمهای رسانه های اجتماعی مانند فیس بوک میتوانند برای فریب مردم استفاده شوند.
- جو بایدن، رئیس جمهور ایالات متحده، در سال 2020 قربانی دیپ فیکهای متعددی شد که او را در حالات اغراق آمیز زوال عقلی و شناختی نشان میداد. هدف این دیپ فیکها تاثیر بر نتیجه انتخابات ریاست جمهوری بوده است. دیگر رؤسای جمهور آمریکا مانند باراک اوباما و دونالد ترامپ نیز قربانی ویدیوهای دیپ فیک شدهاند که برخی از آنها برای انتشار اطلاعات نادرست و برخی به عنوان طنز و سرگرمی هستند.
- در جنگ میان روسیه و اوکراین در سال 2022، ویدیویی از رئیس جمهور اوکراین ولودومیر زلنسکی به تصویر کشیده شد که به سربازان خود میگوید تسلیم روسها شوند.
خرید محصولات هوش مصنوعی برای استفاده مفید از دیپ فیک
همانطور که اشاره کردیم، اگرچه دیپ فیک در بسیاری از موارد برای کارهای غیر قانونی و جعل استفاده میشود، اما در صنایعی مانند فیلمسازی، هنر و ارتباط با مشتری نیز کاربردهای بسیار مفیدی دارد و میتواند در زمان و هزینههای برندها صرفهجویی کند. شرکت هوش مصنوعی آویر با محصولات پیشرفته و تکنولوژی برتر خود در حوزه هوش مصنوعی آماده است تا خدمات بهروز را به شرکتها و سازمانها ارائه کند. نرمافزارها و محصولات شرکت آویر از جدیدترین و بهروزترین الگوریتمهای هوش مصنوعی و یادگیری ماشین ساخته شده و با کاملترین دیتاستها آموزش دیدهاند بهنحوی که دقیقترین و سریعترین پاسخ را به شما ارائه میدهد. برای اطلاع از محصولات و خدمات آویر میتوانید به قسمت محصولات هوش مصنوعی سایت یا قسمت ارتباط با ما سر بزنید.