डाटा साइंस, बेस्ट डेटा एप्लीकेशन एप्लीकेशन, एआई, एमएल और डीएल और टेक्नोलॉजी स्टैक के बीच अंतर!

डेटा के बारे में क्या?

डेटा विज्ञान विश्लेषणात्मक रूप से जटिल समस्याओं को हल करने के लिए डेटा तुलना, एल्गोरिथम विकास और प्रौद्योगिकी का एक बहु-अनुशासनात्मक मिश्रण है।

डेटा का कर्नेल। रॉ डेटा एक एंटरप्राइज़ डेटाबेस में संग्रहीत और संग्रहीत किया जाता है। इसके खनन से बहुत कुछ सीखा जा सकता है। उन्नत अवसर हम इसके साथ बनाते हैं। सूचना विज्ञान अंततः व्यावसायिक मूल्य बनाने के लिए रचनात्मक तरीके से इस डेटा का उपयोग करने के बारे में है।

डेटाबेस में डेटा इनसाइट ढूँढना एक रणनीतिक व्यावसायिक निर्णय है जो केवल डेटा के मात्रात्मक विश्लेषण के बाद किया जा सकता है जो आपको व्यवसाय का मूल्य खोजने में मदद करेगा। उत्पादन में एल्गोरिदम समाधान का उपयोग कर डेटा उत्पाद से डेटा की खोज करें।

सूचना विज्ञान में सर्वोत्तम अभ्यास:

उपयोग की स्थिति और व्यावसायिक उद्देश्य को समझना:

यह सभी डेटा विज्ञान परियोजनाओं के लिए सबसे महत्वपूर्ण कदम है, अर्थात् व्यावसायिक उद्देश्य को परिभाषित करना जो डेटा विज्ञान को प्राप्त करना चाहिए। इसके लिए व्यवसाय की स्पष्ट समझ और नए प्रोजेक्ट के अपेक्षित परिणाम की आवश्यकता होती है। यह डेटा साइंटिस्ट को उन चुनौतियों के लिए खुद को तैयार करने में मदद करेगा, जो सही तकनीकों और जानकारी को शामिल करने के लिए उन्हें व्यवसाय के अंत को समझने की आवश्यकता है।

डेटा को परिभाषित करें:

डेटा विज्ञान परियोजना के समय का लगभग 60-70% डेटा तैयार करने और परिष्कृत करने पर खर्च किया जाता है। डेटा विभिन्न रूपों में आता है जो मोटे तौर पर संरचित, असंरचित और अर्ध-संरचित के रूप में वर्गीकृत होते हैं। हमें डेटा की असामान्यताओं को पहचानने के लिए हमें जो जानकारी चाहिए, उसे पहचानना होगा और समझना होगा कि हमें जो जानकारी चाहिए वह व्यावसायिक उद्देश्यों के लिए उपयोगी जानकारी प्राप्त करने के लिए पर्याप्त है।

बुद्धिशीलता:

सबसे सफल डेटा साइंस प्रोजेक्ट्स में एक बात समान है - वह है, टीम के सदस्यों के बीच। टीम अलग-अलग पृष्ठभूमि के लोगों से बनी है, जो मॉडलिंग या डेटा को तैयार करने / परिष्कृत करने या किसी व्यक्ति के डोमेन में विभिन्न और अधिकतर विशिष्ट चुनौतियों के साथ आते हैं। निर्णय लेने के लिए टीम के सदस्यों के बीच विचार-मंथन सत्र का होना हमेशा उपयोगी होता है।

जानकारी है:

परिणामों की अपेक्षा निर्धारित करें, अर्थात् परिणामों को सार्वजनिक करें। यह व्यावसायिक लक्ष्यों की अपेक्षाओं के विपरीत हो सकता है, लेकिन अपने व्यापार भागीदारों को अंतर्दृष्टि / निष्कर्षों के बारे में सूचित करना हमेशा अच्छा होता है और यह व्यवसाय के लोगों की अपेक्षा अधिक संभावनाएं खोल सकता है।

आवश्यक उपकरण ढूँढना:

आपके व्यावसायिक उद्देश्य के आधार पर, यदि यह एक कम्प्यूटेशनल कार्य है, तो छवि, वीडियो या ऑडियो डेटा को समझने के लिए जीपीयू का उपयोग करते हुए उच्च-प्रदर्शन प्रणालियों की आवश्यकता होती है और डेटा पीढ़ी की गति के आधार पर, उपकरण का सही सेट प्रदान करता है। सेटिंग को भी प्रभावित करता है।

रिपोर्टिंग और कार्य:

एक बार जब आप दूषित डेटा से महान अंतर्दृष्टि प्राप्त करते हैं, तो सभी अवधारणाओं का मूल्य कम हो जाएगा, यदि व्यावसायिक मूल्य के विज़ुअलाइज़ेशन में परिवर्तित नहीं किया गया है। व्यावसायिक मूल्य का विज़ुअलाइज़ेशन जितना बेहतर होगा, व्यवसायियों के लिए उतनी ही बेहतर कार्य योजना है जो विज़ुअलाइज़्ड डेटा के आधार पर व्यवसाय को अनुकूलित कर सकते हैं और जिस ग्राहक को आकर्षित करने की कोशिश कर रहे हैं उनकी व्यावसायिक ज़रूरतों के अनुकूल हो सकते हैं। समझ कच्ची कार्बन है जो दृश्य तकनीकों के बाद एक अपघर्षक हीरे में बदल जाती है।

नियमित रूप से जांचें और जांचें:

मॉडल विभिन्न मापदंडों के एक सेट पर आधारित है, लेकिन समय के साथ अलग-अलग डेटा के साथ। यदि हम एक ही मॉडल का उपयोग एक ही समय सीमा पर प्राप्त नए डेटा के संबंध में करते हैं, तो यह मॉडल प्रदान की गई अंतर्दृष्टि के मामले में ढह सकता है। मॉडल को नए डेटा पर परीक्षण करना और परिणामों को समय-समय पर जांचना / मान्य करना और मॉडल का प्रदर्शन खराब होने पर मॉडल को बदलने के लिए परीक्षण करना हमेशा उचित होता है।

एआई, एमएल और डीएल के बीच अंतर:

AI की शुरुआत कैसे हुई?

एलन ट्यूरिंग एक गणितज्ञ, क्रिप्टोग्राफर, द्वितीय विश्व युद्ध में एनगमा मशीन, लॉजिस्ट, दार्शनिक, कैम्ब्रिज के सहकर्मी (22) और लंबी दूरी के धावक हैं। उन्होंने आधुनिक कंप्यूटर और कृत्रिम बुद्धिमत्ता की नींव भी रखी।

1950 के दशक में उनके काम को व्यापक रूप से जाना गया। इसने "जनरल एआई" के विचार को जन्म दिया: क्या कंप्यूटर में मानव मन की समान विशेषताएं हो सकती हैं, जिसमें विचार, बातचीत और तर्क शामिल हैं? जवाब एक रोमांचक "नहीं" था (कम से कम अभी तक नहीं)।

इसलिए हमें "नैरो एआई" जैसी तकनीकों पर ध्यान केंद्रित करना था - शतरंज खेलना, अपने अगले नेटफ्लिक्स टीवी शो की सिफारिश करना और स्पैम ईमेल की पहचान करना। यह सब मानव मन के कुछ हिस्सों को दर्शाता है। लेकिन वे कैसे काम करते हैं? यह मशीन लर्निंग है।

एआई को एमएल की जरूरत:

एक उच्च एमएल का मतलब आमतौर पर एल्गोरिदम या मॉडल होता है

डेटा: व्यक्तिगत रूप से पहचानी जाने वाली सुविधाओं (जैसे "आयु", "ऊंचाई", "फ़िको", "यह ईमेल स्पैम है?" के साथ) बहुत सारी (साफ) जानकारी प्राप्त करना।

प्रशिक्षण: प्रत्येक सुविधा के सापेक्ष महत्व को "अनुकूलित" करने के लिए जानकारी का उपयोग करें।

· सूचना: कुछ नया करने की भविष्यवाणी करने के लिए।

स्पैम ईमेल भविष्यवाणियों के उदाहरण: Google Gmail बहुत सी जानकारी एकत्र करता है कि स्पैम क्या है और क्या नहीं है ("टैग जानकारी" के रूप में जाना जाता है)। एल्गोरिथ्म तब स्पैम संदेशों और गैर-स्पैम संदेशों की सामान्य विशेषताओं की पहचान करता है। एल्गोरिथ्म तब अज्ञात डेटा (यानी नए ईमेल) पर काम करता है ताकि यह निर्धारित किया जा सके कि वे स्पैम हैं।

एमएल को हस्तक्षेप करने के लिए बहुत सारे लोगों की आवश्यकता होती है, जैसे कि मैन्युअल रूप से एक स्पैम फ़िल्टर सौंपना। गैर-स्पैम संदेश (उदाहरण के लिए, "वेस्टर्न यूनियन" शब्दों के लिए खोज / संदिग्ध वेबसाइटों के लिंक की खोज, आदि)। इसके अलावा, यह इन छवियों में बहुत स्पष्ट नहीं है।

एमएल <= {एनएलपी, डीएल}:

डीप लर्निंग (जिसमें दोहराए जाने वाले तंत्रिका नेटवर्क, निरोधात्मक तंत्रिका नेटवर्क आदि शामिल हैं) मशीन लर्निंग दृष्टिकोण का एक प्रकार है। यह तंत्रिका नेटवर्क का एक विस्तार है। डीप लर्निंग (उदाहरण, कुत्ते की तस्वीरों से विमान चित्रों को अलग करना) को व्यापक रूप से विज़ुअलाइज़ेशन के लिए उपयोग किया जाता है। डीएलपी लर्निंग का उपयोग एनएलपी कार्यों के लिए भी किया जा सकता है। यह ध्यान दिया जाना चाहिए कि गहन शिक्षण एल्गोरिदम केवल पाठ से संबंधित नहीं हैं।

एमएल और एनएलपी में परस्पर विरोधी चीजें होती हैं, क्योंकि मशीन लर्निंग का उपयोग अक्सर एनएलपी कार्यों के लिए किया जाता है। LDA (अव्यक्त डिरिचलेट आवंटन, एक थीम मॉडलिंग एल्गोरिथ्म), मशीन सीखने का एक ऐसा उदाहरण है जिसे नियंत्रित नहीं किया जाता है।

हालांकि, एनएलपी में भाषाविज्ञान का एक मजबूत घटक है (चित्र में नहीं दिखाया गया है), जिसे समझने की आवश्यकता है कि हम अपनी भाषा का उपयोग कैसे करते हैं। भाषा की समझ की कला में हास्य, नकली समझ, जागरूक पाखंड और इतने पर शामिल हैं। यदि हम समझते हैं कि इसका क्या मतलब है कि जल्दी में (हाँ, यह सही है!), हम स्वचालित रूप से हमारे लिए समान पैटर्न खोजने के लिए एक मशीन लर्निंग एल्गोरिदम में इसे कोड कर सकते हैं। आंकड़े।

किसी भी एनएलपी को समाप्त करने के लिए, आपको भाषा को समझना चाहिए। विभिन्न शैलियों के लिए भाषा अलग है (वैज्ञानिक लेख, ब्लॉग, ट्विटर की लेखन शैली अलग-अलग हैं), इसलिए आपको जो कहना चाहते हैं उसे प्राप्त करने के लिए डेटा को मैन्युअल रूप से देखने का एक मजबूत घटक है। व्यक्ति इसका विश्लेषण करता है। एक बार जब आप पहचान लेते हैं कि आप एक मानव मानसिकता के रूप में क्या कर रहे हैं (हैश टैग को अनदेखा करते हुए, अपने मनोदशा को व्यक्त करने के लिए मुस्कुराते हुए चेहरे का उपयोग करके), आप इस प्रक्रिया को स्वचालित और स्केल करने के लिए एमएल दृष्टिकोण का उपयोग कर सकते हैं।

प्रौद्योगिकी और उपकरण:

विभिन्न कम्प्यूटेशनल क्षेत्रों में मैकेनिकल इंजीनियरिंग का अनुप्रयोग तेजी से बढ़ रहा है, न केवल सस्ते और शक्तिशाली हार्डवेयर के कारण, बल्कि मुक्त और खुले स्रोत सॉफ़्टवेयर के कारण भी है जो मशीन सीखने को आसानी से लागू करने में सक्षम बनाता है। सॉफ्टवेयर इंजीनियरिंग टीम के हिस्से के रूप में मशीन व्यवसायी और शोधकर्ता, लगातार परिष्कृत उत्पादों का निर्माण करते हैं, सॉफ्टवेयर को अधिक विश्वसनीय, तेज और निर्बाध बनाने के लिए अंतिम उत्पाद के साथ बुद्धिमान एल्गोरिदम का संयोजन करते हैं। ओपन सोर्स मशीन लर्निंग सिस्टम की एक विस्तृत श्रृंखला है जो मशीन इंजीनियरों को मशीन लर्निंग सिस्टम बनाने, लागू करने और बनाए रखने, नई परियोजनाएं बनाने और नए प्रभावी मशीन लर्निंग सिस्टम बनाने की अनुमति देती है।

आइए कुछ सर्वश्रेष्ठ ओपन सोर्स सॉफ्टवेयर लर्निंग फ्रेमवर्क देखें।

अपाचे स्पार्क मालिब:

यह एक मशीन लर्निंग लाइब्रेरी है जिसका मुख्य कार्य व्यावहारिक मशीन सीखने को अधिक सुलभ और आसान बनाना है। इसमें वर्गीकरण, प्रतिगमन, क्लस्टरिंग, सह-फ़िल्टरिंग, स्केलेबिलिटी में कमी, और निम्न-स्तरीय अनुकूलन प्राइमरों और उच्च-स्तरीय पाइपिंग एपीआई सहित सामान्य शिक्षण एल्गोरिदम और उपयोगिताओं शामिल हैं।

स्पार्क एमएललिब को मुख्य रूप से स्पार्क कोर के शीर्ष पर एक वितरित मशीन लर्निंग डेटाबेस के रूप में माना जाता है, जो कि अपाचे महोट द्वारा उपयोग किए गए डिस्क-आधारित सॉफ़्टवेयर की तुलना में नौ गुना तेज है, मुख्य रूप से स्पार्क कर्नेल-वितरित मेमोरी आर्किटेक्चर के कारण।

TensorFlow:

TensorFlow Google ब्रेन टीम द्वारा विकसित मशीन लर्निंग के लिए एक खुला स्रोत सॉफ़्टवेयर लाइब्रेरी है, जो विभिन्न संज्ञानात्मक और भाषा समझ के कार्यों के साथ-साथ गहरे तंत्रिका नेटवर्क में मशीन सीखने और परिष्कृत अनुसंधान करने के लिए विकसित होता है। । यह Google ब्रेन की दूसरी पीढ़ी का मशीन लर्निंग सिस्टम है और यह कई प्रोसेसर और जीपीयू पर काम कर सकता है। TensorFlow विभिन्न Google उत्पादों जैसे भाषण मान्यता, जीमेल, Google फ़ोटो और यहां तक ​​कि खोज में एम्बेडेड है।

Accord.NET

एकॉर्ड।

अमेज़न मशीन लर्निंग (AML):

अमेज़ॅन मशीन लर्निंग (एएमएल) प्रोग्रामर्स के लिए मशीन लर्निंग सेवा है। इसमें जटिल एमएल एल्गोरिदम और प्रौद्योगिकियों को सीखने की आवश्यकता के बिना अत्यधिक परिष्कृत और बुद्धिमान मशीन सीखने के मॉडल बनाने के लिए कई दृश्य उपकरण और विज़ार्ड हैं। एएमएल के माध्यम से, विशेष भविष्यवाणी कोड या जटिल बुनियादी ढांचे के उपयोग के बिना एक सरल एपीआई का उपयोग करके सॉफ्टवेयर भविष्यवाणी प्राप्त की जा सकती है।

बेडरूम:

केरस पायथन में लिखा गया एक ओपन सोर्स न्यूरल नेटवर्क लाइब्रेरी है। यह TensorFlow, Microsoft Cognitive Toolkit, Theano या MXNet पर शीर्ष पर चल सकता है। केरस में कई सामान्य रूप से उपयोग किए जाने वाले तंत्रिका नेटवर्क ब्लॉक शामिल हैं, जैसे कि परतें, लक्ष्य, सक्रियण कार्य, अनुकूलन और उपकरण जो छवि और पाठ से निपटने की सुविधा प्रदान करते हैं।

मशीन लर्निंग और डीप लर्निंग के लिए कई अन्य पुस्तकालय हैं, जिसके आधार पर किसी एक का चयन किया जाता है।

सीखना सीखना:

डेटा विज्ञान सीखने के लिए कई स्रोत हैं, लेकिन मुख्य आवश्यकता यह है कि डेटा का उपयोग कैसे करें, यह जानने के लिए प्रोग्रामिंग भाषा सीखें।

प्रोग्रामिंग भाषा: पायथन, आर, जावा, एसएएस, MATLAB, आदि।

शुरुआत के लिए:

मशीन लर्निंग से उडेमी, कोर्टेरा, एडक्स आदि को शुरू करने की सिफारिश की गई है।

जैसा कि मैंने इन सभी संसाधनों से पाठ्यक्रम लिया है, मैं सुझाव देता हूं कि, अगर किसी को मैथ कोर्स में रुचि नहीं है और मशीन लर्निंग में दिलचस्पी है, तो मैं मशीन लर्निंग AZ ™: हैंडी-ऑन पायथन में एक कोर्स कर सकता हूं। बुक एंड आर इन डेटा साइंस बताता है कि सभी प्रमुख एल्गोरिदम के लिए बुनियादी शिक्षण एल्गोरिदम के लिए पायथन को कैसे कोड किया जाए।

यदि कोई एल्गोरिदम के पीछे गणितीय अवधारणाओं को जानना चाहता है, तो मैं कौरसेरा के "मशीन लर्निंग का परिचय" पाठ्यक्रम की सिफारिश करता हूं। क्योंकि लेखक ने एल्गोरिथम "एंड्रयू एनजी" के पीछे के गणित को समझाने में बहुत प्रयास किया।

वैज्ञानिक अनुसंधान के लिए:

एडवांस मशीन लर्निंग / डीप लर्निंग की अवधारणाओं के लिए, मशीन लर्निंग और डीप लर्निंग के बुनियादी ज्ञान को सीखने के लिए ट्यूटोरियल और पाठों का पालन करें।

कोर्टेरा के गहन अध्ययन का गहन अध्ययन शुरू करना आवश्यक है, जिसमें वास्तविक समय के उपयोग के लिए कार्य शामिल हैं। यदि कोई उम्मीदवार इस पाठ्यक्रम को पूरा कर सकता है और सभी बाहरी संसाधनों के बिना मामलों का उपयोग करते हैं, तो वह डीप लर्निंग में कई कार्यों को पूरा करने में सक्षम होगा।

Udemy में एक विशिष्ट विषय के अलावा अन्य उपयोग के मामलों की एक विस्तृत श्रृंखला है।

डेटा साइंस प्रिटिसेस में महारत हासिल करने और उसी लिंक को खोजने के लिए बहुत अधिक पढ़ना पड़ता है:

मैकेनिकल इंजीनियरिंग - https://web.stanford.edu/~hastie/Papers/ESLII.pdf

गहन अध्ययन के लिए - https://github.com/janishar/mit-deep-learning-book-pdf

कौरसेरा - https://www.coursera.org/

उदमी - https://www.udemy.com/

ऑक्सफोर्ड - https://github.com/oxford-cs-deepnlp-2017/lectures

विश्लेषण विधान - https://www.analyticsvidhya.com/

मशीनलर्निंगमैटरी - https://machinelearningmastery.com/

नोट:

सामग्री विभिन्न ब्लॉगों और विकिपीडिया लेखों से आती है, कुछ मेरे पुराने ब्लॉग से। डेटा का अवलोकन प्राप्त करने के लिए यहां संयुक्त।