डीपफेक और गहरे वीडियो पोर्ट्रेट - वे क्या हैं और उनके अंतर क्या हैं?

आप निश्चित रूप से जानते हैं कि डीपफेक क्या है, लेकिन आप नहीं जानते कि यह क्या है या इसका वास्तव में क्या मतलब है। आप नहीं जानते होंगे कि विभिन्न तकनीकें हैं जो नकली वीडियो और ऑडियो का उत्पादन कर सकती हैं।

हम सभी "फोटोशॉप्ड" छवियों से परिचित हैं और वे कितनी दूर जा चुके हैं। हम वीडियो प्रभाव (वीएफएक्स) और विशेष प्रभाव भी पेश करते हैं जो दशकों से फिल्मों में उपयोग किए जाते हैं। लेकिन डीपफेक की वजह से नकली मीडिया का एक नया युग आ रहा है।

डीपफेक और डीप वीडियो पोर्ट्रेट तकनीक दो समान हैं, लेकिन हॉलीवुड फिल्मों, यूट्यूब वीडियो और हां, पोर्नोग्राफी में उपयोग की जाने वाली विभिन्न तकनीकें हैं। लेकिन यह तकनीक वास्तव में क्या है, और यह सब कैसे काम करता है?

यदि आपने अभी भी किसी अन्य फिल्म अभिनेता के बारे में निकोलस केज के चेहरे की बदबूदार वीडियो नहीं देखी है, तो आपने शायद बहुत सारे सोशल मीडिया "फिल्टर" या "मास्क" देखे हैं जो आपको एक बिल्ली बनाते हैं, एक कुक जोड़ें। अपने सिर पर टोपी लगाएं या इसे एक ही रंग का बनाएं।

आपने शायद BuzzFeed वीडियो देखा होगा, जिसमें कॉमेडियन और इंप्रेशनिस्ट जॉर्डन Pil वीडियो में दिखाते हैं कि कैसे कोई अपने चेहरे को हेरफेर कर सकता है (इस मामले में, पूर्व राष्ट्रपति बराक ओबामा) और ऐसा कुछ कहते हैं जो उन्होंने कभी नहीं किया।

आपने यह भी सुना होगा कि वंडर वुमन स्टार गैल गैडोट एक रेडिट उपयोगकर्ता द्वारा "डेप्थ्स" नामक एक नकली फिल्म में एक कथित वयस्क वीडियो में दिखाई देती है। गडोट का चेहरा पिछले दिसंबर में एक पोर्न स्टार के शरीर में जोड़ा गया था। Deepfakes।

तो क्या है डीपफेक?

आप सोच सकते हैं कि डीपफेक का आधार "फेस रिप्लेसमेंट" है।

डीपफेक एक एआई-सक्षम वीडियो है जो एक स्रोत व्यक्ति के कई फोटो (आमतौर पर सैकड़ों या हजारों) लेने के द्वारा बनाया जाता है। इन चित्रों को इंस्टाग्राम, फेसबुक, स्नैपचैट या यहां तक ​​कि Google छवि खोज सहित कई स्रोतों से डाउनलोड किया जा सकता है।

डीपफेक एआई स्रोत छवियों के चेहरे को मैप करेगा और उन तस्वीरों के आधार पर एक 3 डी मॉडल बनाएगा जिन्हें आप देख रहे हैं। मॉडल निर्देशक के चेहरे और विशेषताओं को दर्शाता है:

स्रोत: https://hackernoon.com/building-a-facial-recognition-pipeline-with-deep-learning-in-tensorflow-66e7645015b8 कोल मूरे द्वारा

कार्यक्रम एक लक्षित चेहरे के साथ एक स्रोत वीडियो भी प्रदान करता है जिसे उपयोगकर्ता बदलना चाहता है। एआई वीडियो में व्यक्ति के चेहरे को भी मैप करता है और एक अन्य 3-डी मैप मॉडल बनाता है।

सीएमयू में शोध के एक प्रोफेसर साइमन लुसी खुद का उपयोग अपने ग्लास ब्रोकर के लिए विकसित किए गए फेस-मैपिंग सॉफ़्टवेयर को दिखाने के लिए एक मॉडल के रूप में करते हैं। साभार: साइमन लूसी / CMU

एआई स्रोत मॉडल को लक्ष्य मॉडल के साथ मिलाना शुरू करता है। यह छवियों (व्यायाम डेटा) के माध्यम से चेहरे को "सीखता है", जो थोड़ा सा दिखता है:

फेस रिप्लेसमेंट एक्सरसाइज उदाहरण - एलोन मस्क और जेफ बेजोस द्वारा आदि रॉबर्टसन, स्रोत: https://www.theverge.com/2018/2/11/16992986/fakeapp-deepfakes-ai-face-wapping

एआई फिर लक्षित वीडियो के 3-डी मॉडल पर तस्वीरों से उत्पन्न 3-डी चेहरे को हटाता है और एक वीडियो बनाता है जो चेहरे, मुंह, आंखों और इसी तरह के आंदोलनों से मेल खाता है। मूल चेहरा।

डीपफेक के स्रोत चित्रों की एक श्रृंखला है, और डीपफेक का परिणाम एक आमने-सामने वीडियो है जिसे एक उदाहरण के रूप में संशोधित किया गया है:

क्या इस गहरे वीडियो चित्र को अलग बनाता है?

"डीपफेक" और "डीप वीडियो पोर्ट्रेट" (डीवीपी को छोटा करने) के बीच का अंतर दो प्रमुख अंतरों में आता है:

  1. डीवीपी से वीडियो चेहरे को प्रतिस्थापित नहीं करता है, लेकिन केवल सुविधाओं को नियंत्रित करता है
  2. DVP के लिए स्रोत व्यक्तिगत तस्वीरों से नहीं, बल्कि लाइव-अभिनेता से आता है।

डीवीपी एक फेस रिप्लेसमेंट नहीं है। यह चेहरा हेरफेर है। वीडियो कठपुतली

इस लेख की शुरुआत में लिंक किए गए वीडियो से पता चलता है कि ओबामा नकली वीडियो के बारे में बात कर रहे हैं, नकली नहीं, बल्कि डीवीपी का उदाहरण है। एक अभिनेता है जिसका चेहरा नक्शे पर दिखाया गया है, और यदि आपने लक्ष्य चेहरा नहीं बदला है, लेकिन केवल लक्षित चेहरे को स्थानांतरित कर दिया है, तो परिणाम को फोटोग्राफिक गहराई से भी अधिक भरोसा किया जा सकता है।

डीवीपी निर्माता लक्षित ब्लिंकिंग, मुंह खोलना, भौहें उठाना और सिर मोड़ना जैसी चीजें कर सकते हैं। बदले में, गहरी आवाजें मूल वीडियो क्रियाओं से विचलित नहीं कर सकती हैं। यही कारण है कि डीवीपी पर किसी भी गहरी चीज़ से अधिक भरोसा किया जा सकता है।

यह उदाहरण इस "फेस पेंटिंग और रीइंतेर्ग्रेशन" तकनीक के कार्यों को और अधिक गहराई से देखता है:

स्नैपचैट या इंस्टाग्राम फिल्टर मास्क डीवीपी है, न कि डीपफेक। ऐसा इसलिए है क्योंकि आप (लक्ष्य चेहरे नहीं बदलते हैं), लेकिन आपका चेहरा मैप किया जाता है और ऐप आपके चेहरे पर कुछ बंद कर देता है:

ध्वनि नकली और गहरे वीडियो पोर्ट्रेट

एक अन्य प्रकार की नकली सामग्री है जो हाल ही में बेहतर हुई है और अधिक लोकप्रिय हो गई है - ध्वनि पैदा करना।

2016 में, Adobe Max ने Adobe VoCo को रचनात्मक सम्मेलन में पेश किया: एक ऑडियो सूट जो उपयोगकर्ताओं को यह बताने में मदद करता है कि वे क्या चाहते हैं। पाठ को भाषण में अनुवाद करने के बारे में सोचें, लेकिन किसी की सच्ची आवाज पर आधारित है।

कंपनी का दावा है कि 20 मिनट का श्रोता VoCo को वास्तविक स्रोत जैसे मुखर ट्रैक को जारी करने की अनुमति देगा। सॉफ्टवेयर चलाने वाले कंप्यूटर द्वारा आउटपुट तैयार किया जाता है।

Adobe VoCo को वास्तव में 2016 के बाद से नहीं सुना गया है, शायद गोपनीयता और गोपनीयता के मुद्दों को उठाए जाने के बाद। यह एक "विचार मंच" पर चित्रित किया गया था जिसे एक नए उत्पाद के रूप में घोषित नहीं किया गया था। इसने जिज्ञासा, उत्तेजना और बहस को जन्म दिया, लेकिन इसके जारी होने की बिल्कुल उम्मीद नहीं थी।

अब जब विचार और प्रौद्योगिकी उपलब्ध हैं, तो अन्य कंपनियों ने अपनी ध्वनि प्रौद्योगिकी जारी की है। लियरबर्ड ने एक सेवा जारी की है जो भाषण के सिर्फ 30 वाक्यों (VoCo के लगभग 20 मिनट के डेटा पर आधारित) के आधार पर आपके लिए "मुखर अवतार" बनाएगी।

जबकि VoCo को अपने उत्पादों का उत्पादन करने के लिए स्थानीय कंप्यूटिंग संसाधनों की आवश्यकता होती है, लियरबर्ड बड़े पैमाने पर क्लाउड संसाधनों का उपयोग करता है और, परिणामस्वरूप, उत्पादन में तेजी लाता है। लियरबर्ड को 20 मिनट की मूल भाषण शैली के खिलाफ 30 विशिष्ट वाक्यों की आवश्यकता होती है जो निराशा और अन्य कमजोरियों को कम कर सकते हैं।

डीवीपी के साथ ऑडियो धोखाधड़ी विश्वास बढ़ा सकती है। ऐसा इसलिए है क्योंकि आप ऐसा आभास नहीं सुन रहे हैं कि कोई व्यक्ति अपना प्रभाव खो सकता है, बल्कि लक्ष्य व्यक्ति की अपनी आवाज़ का एक करीब से प्रतिनिधित्व कर सकता है।

हाइब्रिड तकनीक

फेसस्वैप एक ऐसा प्रोग्राम है जो आपको डीपफेक के आमने-सामने संयोजन करने की अनुमति देता है, लेकिन वास्तविक समय में शायद ही किसी और का चेहरा। डीपफेक और डीवीपी को जोड़ती है।

निष्कर्ष

इन प्रौद्योगिकियों में सुधार जारी रहेगा। हालांकि कई उपयोग मज़ेदार और मितव्ययी हैं, इस तकनीक का बहुत बड़ा प्रभाव है।

दीपक और DVP निस्संदेह हमारे दृष्टिकोण को सत्य, विश्वास और गोपनीयता पर प्रभावित करेंगे। लेकिन नैतिकता, समस्याओं और सामाजिक प्रभावों (अच्छे और बुरे) के बारे में चर्चा इस लेख के दायरे से परे है।

अब तक, एकमात्र समाधान यह सवाल करना है कि आपने क्या देखा और सुना है।

Mikes Pexels चित्र द्वारा फोटो