HIVE
Apache Hive ही वितरित, दोष-सहिष्णु डेटा वेअरहाऊस प्रणाली आहे जी मोठ्या प्रमाणावर विश्लेषणे सक्षम करते. डेटा वेअरहाऊस माहितीचे केंद्रीय स्टोअर प्रदान करते ज्याचे माहिती, डेटा आधारित निर्णय घेण्यासाठी सहजपणे विश्लेषण केले जाऊ शकते. Hive वापरकर्त्यांना SQL वापरून पेटाबाइट डेटा वाचण्यास, लिहिण्यास आणि व्यवस्थापित करण्यास अनुमती देते.
Hive हे Apache Hadoop च्या वर बनवलेले आहे, जे मोठ्या डेटासेटला कार्यक्षमतेने संचयित करण्यासाठी आणि त्यावर प्रक्रिया करण्यासाठी वापरले जाणारे ओपन-सोर्स फ्रेमवर्क आहे. परिणामी, Hive हे Hadoop सह जवळून समाकलित केले आहे, आणि डेटाच्या petabytes वर द्रुतपणे कार्य करण्यासाठी डिझाइन केलेले आहे. एसक्यूएल सारख्या इंटरफेससह, अपाचे तेझ किंवा मॅपरेड्यूसचा फायदा घेऊन मोठ्या डेटासेटची क्वेरी करण्याची क्षमता ही हायव्हला अद्वितीय बनवते.
Hive मधील Hive काय आहे हे स्वतः Hive च्या निर्मात्यांपेक्षा कोणीही अधिक चांगल्या प्रकारे स्पष्ट करू शकत नाही: "Apache Hive™ डेटा वेअरहाऊस सॉफ्टवेअर SQL वापरून वितरित स्टोरेजमध्ये राहणारे मोठे डेटासेट वाचणे, लिहिणे आणि व्यवस्थापित करणे सुलभ करते. संरचना आधीपासून असलेल्या डेटावर प्रक्षेपित केली जाऊ शकते. स्टोरेज."
दुसऱ्या शब्दांत, Hive ही एक मुक्त-स्रोत प्रणाली आहे जी Hadoop मध्ये संरचित डेटावर प्रक्रिया करते, बिग डेटा सारांशित करण्यासाठी, तसेच विश्लेषण आणि क्वेरी सुलभ करण्यासाठी नंतरच्या शीर्षस्थानी राहते.
आता आम्ही हडूपमध्ये पोळे म्हणजे काय याचा शोध घेतला आहे, चला वैशिष्ट्ये आणि वैशिष्ट्ये पाहू या.
पोळ्यामध्ये मुख्यतः तीन मुख्य भाग असतात:
Hive क्लायंट: Hive विविध अनुप्रयोगांसह संप्रेषणासाठी डिझाइन केलेले विविध ड्रायव्हर्स ऑफर करते. उदाहरणार्थ, Hive थ्रिफ्ट-आधारित अनुप्रयोगांसाठी थ्रिफ्ट क्लायंट प्रदान करते. हे क्लायंट आणि ड्रायव्हर्स नंतर Hive सर्व्हरशी संवाद साधतात, जे Hive सेवांच्या अंतर्गत येते. Hive सेवा: Hive सेवा Hive सह क्लायंट परस्परसंवाद करतात. उदाहरणार्थ, एखाद्या क्लायंटला क्वेरी करायची असल्यास, त्याने Hive सेवांशी बोलणे आवश्यक आहे. Hive स्टोरेज आणि संगणन: Hive सेवा जसे की फाइल सिस्टम, जॉब क्लायंट आणि मेटा स्टोअर नंतर Hive स्टोरेजशी संप्रेषण करते आणि मेटाडेटा टेबल माहिती आणि क्वेरी परिणाम यासारख्या गोष्टी संग्रहित करते.
पोळ्याची वैशिष्ट्ये
ही पोळ्याची प्रमुख वैशिष्ट्ये आहेत:
Hive फक्त टेबलमध्ये संग्रहित केलेल्या संरचित डेटाची क्वेरी आणि व्यवस्थापित करण्यासाठी डिझाइन केलेले आहे पोळे स्केलेबल, जलद आहे आणि परिचित संकल्पना वापरते स्कीमा डेटाबेसमध्ये संग्रहित केला जातो, तर प्रक्रिया केलेला डेटा हाडूप वितरित फाइल सिस्टम (HDFS) मध्ये जातो सारण्या आणि डेटाबेस प्रथम तयार केले जातात; मग डेटा योग्य टेबलमध्ये लोड केला जातो Hive चार फाईल फॉरमॅटला सपोर्ट करते: ORC, SEQUENCEFILE, RCFILE (रेकॉर्ड कॉलमर फाइल), आणि TEXTFILE Hive एक SQL-प्रेरित भाषा वापरते, वापरकर्त्याला MapReduce प्रोग्रामिंगच्या जटिलतेचा सामना करण्यापासून वाचवते. हे स्तंभ, सारण्या, पंक्ती आणि स्कीमा इत्यादी सारख्या रिलेशनल डेटाबेसमध्ये आढळलेल्या परिचित संकल्पनांचा वापर करून शिकणे अधिक सुलभ बनवते. Hive Query Language (HQL) आणि SQL मधील सर्वात महत्त्वाचा फरक हा आहे की Hive पारंपारिक डेटाबेस ऐवजी Hadoop च्या पायाभूत सुविधांवर क्वेरी कार्यान्वित करते. Hadoop चे प्रोग्रामिंग फ्लॅट फाईल्सवर काम करत असल्याने, Hive डेटाचे "विभाजन" करण्यासाठी डिरेक्टरी स्ट्रक्चर्स वापरते, विशिष्ट क्वेरींवरील कार्यप्रदर्शन सुधारते. जलद आणि सोप्या डेटा पुनर्प्राप्तीसाठी पोळे विभाजन आणि बादल्यांचे समर्थन करते Hive डेटा साफ करणे आणि फिल्टरिंग सारख्या कार्यांसाठी सानुकूल वापरकर्ता-परिभाषित कार्ये (UDF) चे समर्थन करते. Hive UDF ची व्याख्या प्रोग्रामरच्या गरजांनुसार केली जाऊ शकते पोळ्याच्या मर्यादा अर्थात, कोणतेही संसाधन परिपूर्ण नसते आणि पोळ्याला काही मर्यादा असतात. ते आहेत:
Hive OLTP ला सपोर्ट करत नाही. Hive ऑनलाइन अॅनालिटिकल प्रोसेसिंग (OLAP) चे समर्थन करते, परंतु ऑनलाइन ट्रान्झॅक्शन प्रोसेसिंग (OLTP) नाही. हे सबक्वेरींना समर्थन देत नाही. यात उच्च विलंब आहे. हाइव्ह टेबल्स डिलीट किंवा अपडेट ऑपरेशनला सपोर्ट करत नाहीत. पोळ्यामध्ये डेटा कसा वाहतो? डेटा विश्लेषक वापरकर्ता इंटरफेस (UI) सह क्वेरी कार्यान्वित करतो. योजना पुनर्प्राप्त करण्यासाठी ड्रायव्हर क्वेरी कंपाइलरशी संवाद साधतो, ज्यामध्ये क्वेरी अंमलबजावणी प्रक्रिया आणि मेटाडेटा माहिती असते. सिंटॅक्स आणि आवश्यकता तपासण्यासाठी ड्रायव्हर क्वेरीचे विश्लेषण देखील करतो. कंपाइलर कार्यान्वित करण्यासाठी जॉब प्लॅन (मेटाडेटा) तयार करतो आणि मेटाडेटा विनंती पुनर्प्राप्त करण्यासाठी मेटास्टोरशी संवाद साधतो. मेटास्टोर मेटाडेटा माहिती कंपाइलरला परत पाठवते कंपाइलर प्रस्तावित क्वेरी अंमलबजावणी योजना ड्रायव्हरला रिले करतो. ड्रायव्हर एक्झिक्युशन प्लॅन्स एक्झिक्यूशन इंजिनला पाठवतो. एक्झिक्यूशन इंजिन (EE) Hive आणि Hadoop मधील पूल म्हणून काम करून क्वेरीवर प्रक्रिया करते. नोकरीची प्रक्रिया MapReduce मध्ये चालते. एक्झिक्युशन इंजिन नेम नोडमध्ये सापडलेल्या जॉबट्रॅकरला जॉब पाठवते आणि डेटा नोडमध्ये टास्कट्रॅकरला नियुक्त करते. हे घडत असताना, एक्झिक्युशन इंजिन मेटास्टोरसह मेटाडेटा ऑपरेशन्स चालवते. परिणाम डेटा नोड्समधून पुनर्प्राप्त केले जातात. परिणाम एक्झिक्यूशन इंजिनला पाठवले जातात, जे यामधून ड्रायव्हर आणि फ्रंट एंडला (UI) परिणाम परत पाठवतात. पोळे म्हणजे काय याबद्दल आपण पुढे गेलो असल्याने, पोळे काय नाही याला देखील आपण स्पर्श केला पाहिजे:
Hive ही पंक्ती-स्तरीय अद्यतने आणि रिअल-टाइम क्वेरीसाठी भाषा नाही पोळे हा रिलेशनल डेटाबेस नाही पोळे हे ऑनलाइन व्यवहार प्रक्रियेसाठी डिझाइन नाही पोळे म्हणजे काय ते पाहिल्याप्रमाणे, पोळ्याच्या पद्धतींबद्दल जाणून घेऊ.
पोळे मोड
हडूप डेटा नोड्सच्या आकारानुसार, Hive दोन वेगवेगळ्या मोडमध्ये ऑपरेट करू शकते:
स्थानिक मोड नकाशा-कमी मोड वापरकर्ता स्थानिक मोड जेव्हा:
Hadoop स्यूडो मोड अंतर्गत स्थापित केले आहे, फक्त एक डेटा नोड आहे डेटा आकार लहान आहे आणि एका स्थानिक मशीनपुरता मर्यादित आहे वापरकर्ते जलद प्रक्रियेची अपेक्षा करतात कारण स्थानिक मशीनमध्ये लहान डेटासेट असतात.
नकाशा कमी मोड वापरा जेव्हा:
हडूपमध्ये एकाधिक डेटा नोड्स आहेत आणि डेटा या भिन्न नोड्समध्ये वितरित केला जातो वापरकर्त्यांनी अधिक मोठ्या डेटा सेटचा सामना केला पाहिजे MapReduce हा Hive चा डीफॉल्ट मोड आहे.