आज की डेटा-संचालित दुनिया में, सूचना शक्ति है, और वेब से डेटा का उपयोग करना एक आवश्यक कौशल बन गया है। Google शीट्स, एक व्यापक रूप से उपयोग किया जाने वाला स्प्रैडशीट टूल, IMPORTXML नामक एक शक्तिशाली सुविधा प्रदान करता है, जो आपको वेबसाइटों से डेटा स्क्रैप करने और इसे सीधे अपनी स्प्रैडशीट्स में आयात करने की अनुमति देता है। इस व्यापक मार्गदर्शिका में, हम आपको बुनियादी वेब स्क्रैपिंग के लिए Google शीट्स का उपयोग करने की प्रक्रिया के बारे में बताएंगे, जिससे आप आसानी से मूल्यवान डेटा एकत्र कर सकेंगे।
XML और HTML आयात करना
इससे पहले कि हम Google शीट्स के साथ वेब स्क्रैपिंग में उतरें, XML और HTML की मूल बातें समझना आवश्यक है। ये वेब पर उपयोग की जाने वाली दो प्राथमिक मार्कअप भाषाएँ हैं। XML (एक्स्टेंसिबल मार्कअप लैंग्वेज) का उपयोग डेटा को संरचित करने के लिए किया जाता है, जबकि HTML (हाइपरटेक्स्ट मार्कअप लैंग्वेज) का उपयोग वेब सामग्री को संरचित करने के लिए किया जाता है।
Google शीट XML या HTML तत्वों की व्याख्या करके वेबसाइटों से डेटा पुनर्प्राप्त करने के लिए IMPORTXML का उपयोग करता है। आप मूल्य, स्टॉक जानकारी, या वेब पेजों पर मिलने वाला कोई अन्य संरचित डेटा जैसे डेटा आयात कर सकते हैं।
IMPORTXML कैसे काम करता है
IMPORTXML Google शीट्स में एक अंतर्निहित फ़ंक्शन है जो XPath क्वेरीज़ का उपयोग करके एक निर्दिष्ट URL से डेटा निकालता है। XPath XML दस्तावेज़ों को नेविगेट करने और उनमें से नोड्स का चयन करने के लिए एक भाषा है।
IMPORTXML का उपयोग करने के लिए, आपको दो तर्क प्रदान करने होंगे: उस वेबपेज का URL जिसे आप स्क्रैप करना चाहते हैं और XPath क्वेरी जो उस विशिष्ट डेटा को इंगित करती है जिसे आप निकालना चाहते हैं। Google शीट्स तब डेटा प्राप्त करती है और इसे आपकी स्प्रैडशीट में प्रदर्शित करती है।
त्वरित XPath परिचय
XPath किसी XML या HTML दस्तावेज़ से डेटा चुनने के लिए एक शक्तिशाली उपकरण है। यह XML/HTML दस्तावेज़ में तत्वों और विशेषताओं के माध्यम से नेविगेट करने के लिए पथ अभिव्यक्तियों का उपयोग करता है। यहां एक संक्षिप्त उदाहरण दिया गया है:
मान लीजिए कि आप किसी वेबपेज का शीर्षक निकालना चाहते हैं। इसके लिए XPath क्वेरी होगी:
//शीर्षक
यह क्वेरी Google शीट्स को सभी ढूंढने के लिए कहती है
किसी वेबसाइट से Google शीट में डेटा कैसे निकालें
अब, आइए अपने हाथ गंदे करें और Google शीट्स के साथ कुछ वेब स्क्रैपिंग करें:
- एक नया Google शीट दस्तावेज़ खोलें.
- वह वेबसाइट URL दर्ज करें जिससे आप डेटा निकालना चाहते हैं।
- अपनी स्प्रैडशीट में किसी सेल पर क्लिक करें।
- =IMPORTXML(“URL”, “XPath Query”) टाइप करें, “URL” को वेबपेज URL से बदलें और “XPath Query” को अपनी इच्छित क्वेरी से बदलें।
- Enter दबाएँ, और जादू होते हुए देखें!
Google शीट्स वेबसाइट से डेटा लाएगा और इसे चयनित सेल में प्रदर्शित करेगा।
Google शीट्स IMPORTXML के अलावा और भी बहुत कुछ प्रदान करता है। आप IMPORTHTML और IMPORTDATA जैसे अन्य संबंधित कार्यों की खोज करके अपने वेब स्क्रैपिंग कौशल को बढ़ा सकते हैं। ये फ़ंक्शन आपको क्रमशः HTML तालिकाओं और CSV फ़ाइलों से डेटा आयात करने की अनुमति देते हैं, जिससे आपकी डेटा अधिग्रहण प्रक्रिया और भी अधिक बहुमुखी हो जाती है।
किसी वेबसाइट से Google शीट में एक तालिका आयात करें
वेबसाइटों से Google शीट में तालिकाएँ आयात करना बहुत आसान है। ऐसे:
- तालिका को पहचानें: जिस तालिका को आप आयात करना चाहते हैं उस वेबपेज पर जाएं और उस पर राइट-क्लिक करें। डेवलपर टूल खोलने और तालिका का प्रतिनिधित्व करने वाले HTML कोड का पता लगाने के लिए "निरीक्षण करें" चुनें।
- IMPORTHTML का उपयोग करें: अपने Google शीट दस्तावेज़ में, निम्नलिखित सूत्र दर्ज करें:
=IMPORTHTML(“यूआरएल”, “तालिका”, अनुक्रमणिका)- "यूआरएल" वेबपेज का यूआरएल होना चाहिए।
- "तालिका" निर्दिष्ट करती है कि आप एक तालिका आयात करना चाहते हैं।
- "सूचकांक" वेबपेज पर तालिका की स्थिति है (यदि यह पहली तालिका है तो 1 का उपयोग करें)।
- एंट्रर दबाये। Google शीट्स तालिका को आयात करेगी, जिससे यह विश्लेषण और हेरफेर के लिए आसानी से उपलब्ध हो जाएगी।
XML फ़ीड से Google शीट में डेटा आयात करें
XML फ़ीड गतिशील डेटा का एक सामान्य स्रोत हैं। XML फ़ीड से डेटा को Google शीट में आयात करने के लिए:
- XML फ़ीड URL प्राप्त करें: आपको उस XML फ़ीड के URL की आवश्यकता होगी जिसे आप आयात करना चाहते हैं।
- IMPORTXML का उपयोग करें: किसी सेल में, दर्ज करें:
=IMPORTXML(“XML फ़ीड URL”, “XPath क्वेरी”)- "एक्सएमएल फ़ीड यूआरएल" एक्सएमएल फ़ीड का यूआरएल है।
- "XPath क्वेरी" में वह डेटा निर्दिष्ट होना चाहिए जिसे आप निकालना चाहते हैं।
- एंट्रर दबाये। Google शीट्स XML फ़ीड से डेटा खींचेगी और इसे आपकी स्प्रैडशीट में प्रदर्शित करेगी।
IMPORTFEED द्वारा आयातित डेटा को अनुकूलित करना
IMPORTFEED एक बहुमुखी फ़ंक्शन है जो आपको RSS जैसे विभिन्न फ़ीड से डेटा आयात करने की अनुमति देता है। आयातित डेटा को अनुकूलित करने के लिए:
- "तत्व" पैरामीटर का उपयोग करें: डिफ़ॉल्ट रूप से, IMPORTFEED नवीनतम फ़ीड आइटम आयात करता है। इसे अनुकूलित करने के लिए, "तत्व" पैरामीटर जोड़ें। उदाहरण के लिए:
=आयातफ़ीड(“आरएसएस फ़ीड यूआरएल”, “तत्व”, संख्या)- "आरएसएस फ़ीड यूआरएल" आरएसएस फ़ीड का यूआरएल है।
- "तत्व" वह तत्व निर्दिष्ट करता है जो आप चाहते हैं (उदाहरण के लिए, "शीर्षक" या "विवरण")।
- "संख्या" आइटम नंबर निर्धारित करती है (सबसे हाल के लिए 1, दूसरे सबसे हाल के लिए 2, और इसी तरह)।
सीएसवी से Google शीट में डेटा आयात करना
सीएसवी (अल्पविराम से अलग किए गए मान) फ़ाइलें डेटा विनिमय के लिए व्यापक रूप से उपयोग की जाती हैं। किसी CSV फ़ाइल से Google शीट में डेटा आयात करने के लिए:
- Google शीट खोलें.
- "फ़ाइल" > "आयात करें" पर क्लिक करें।
- अपनी CSV फ़ाइल अपलोड करें.
- आयात सेटिंग कॉन्फ़िगर करें: आप निर्दिष्ट कर सकते हैं कि Google शीट्स को डेटा को कैसे प्रबंधित करना चाहिए, जिसमें सीमांकक सेटिंग्स और डेटा फ़ॉर्मेटिंग शामिल है।
- "आयात करें" पर क्लिक करें। Google शीट्स आयातित डेटा के साथ एक नई शीट बनाएगी।
क्या डेटा ताज़ा रहता है?
इन फ़ंक्शंस का उपयोग करके आयात किया गया डेटा स्वचालित रूप से अपडेट नहीं होता है। डेटा को ताज़ा रखने के लिए, आपको इसे मैन्युअल रूप से ताज़ा करना होगा। आयात फ़ंक्शन वाले सेल पर राइट-क्लिक करें और "रीफ्रेश करें" चुनें। आप विशिष्ट अंतरालों पर डेटा ताज़ा करने के लिए स्वचालित ट्रिगर भी सेट कर सकते हैं।
आयात कार्यों के फायदे और नुकसान
लाभ:
- उपयोग में आसानी: Google शीट्स में आयात फ़ंक्शन उपयोगकर्ता के अनुकूल हैं और कोडिंग कौशल की आवश्यकता नहीं है।
- बहुमुखी प्रतिभा: आप वेबसाइटों, XML फ़ीड्स और CSV फ़ाइलों सहित विभिन्न स्रोतों से डेटा आयात कर सकते हैं।
- स्वचालन: Google Apps स्क्रिप्ट के साथ, आप डेटा रीफ्रेश और प्रोसेसिंग को स्वचालित कर सकते हैं।
कमियां:
- डेटा ताजगी: डेटा स्वचालित रूप से अपडेट नहीं होता है, जो वास्तविक समय की डेटा आवश्यकताओं के लिए एक खामी हो सकती है।
- वेबसाइट परिवर्तन: यदि किसी वेबसाइट की संरचना बदलती है, तो आपके आयात कार्य बाधित हो सकते हैं, जिसके लिए अद्यतन की आवश्यकता होगी।
- वॉल्यूम सीमाएँ: Google शीट्स में आपके द्वारा आयात और संसाधित किए जा सकने वाले डेटा की मात्रा की सीमाएँ हैं।
आम त्रुटियों
आयात फ़ंक्शंस का उपयोग करते समय, आपको त्रुटियों का सामना करना पड़ सकता है। आम लोगों में शामिल हैं:
- #N/ए: यह त्रुटि तब होती है जब आपके द्वारा प्रदान किया गया XPath या क्वेरी वेबपेज या फ़ीड पर किसी भी डेटा से मेल नहीं खाता है।
- #REF!: यह एक संदर्भ त्रुटि को इंगित करता है, आमतौर पर क्योंकि स्रोत डेटा स्थानांतरित हो गया था या हटा दिया गया था।
- 1TP5आतंक: यह एक सामान्य त्रुटि संदेश है जो गलत सिंटैक्स या आयात सीमा से अधिक होने सहित विभिन्न समस्याओं के कारण हो सकता है।
ऐसे मामलों में, त्रुटियों को हल करने के लिए अपने सूत्रों, XPath क्वेरीज़ और डेटा स्रोतों की दोबारा जाँच करें।
इस गाइड में, हमने Google शीट्स का उपयोग करके वेब स्क्रैपिंग की कला को उजागर किया है। आपने सीखा कि XML और HTML कैसे आयात करें, IMPORTXML कैसे काम करता है, XPath की मूल बातें और वेबसाइटों से Google शीट में डेटा निकालने की प्रक्रिया। इस ज्ञान से लैस होकर, आप अनुसंधान, विश्लेषण या किसी अन्य उद्देश्य के लिए आसानी से मूल्यवान डेटा एकत्र कर सकते हैं।
अब, आपके लिए वेब स्क्रैपिंग की दुनिया का पता लगाने और अपनी उंगलियों पर डेटा की क्षमता को अनलॉक करने का समय आ गया है। हैप्पी स्क्रैपिंग!
टिप्पणियाँ (0)
यहां अभी तक कोई टिप्पणी नहीं है, आप पहले हो सकते हैं!