في عالم اليوم القائم على البيانات، تعد المعلومات قوة، وأصبح تسخير البيانات من الويب مهارة أساسية. تقدم جداول بيانات Google، وهي أداة جداول بيانات مستخدمة على نطاق واسع، ميزة قوية تسمى IMPORTXML، والتي تتيح لك استخراج البيانات من مواقع الويب واستيرادها مباشرة إلى جداول البيانات الخاصة بك. في هذا الدليل الشامل، سنرشدك خلال عملية استخدام جداول بيانات Google لاستخلاص البيانات الأساسية من الويب، مما يمكّنك من جمع البيانات القيمة دون عناء.
استيراد XML وHTML
قبل أن نتعمق في استخراج بيانات الويب باستخدام جداول بيانات Google، من الضروري فهم أساسيات XML وHTML. هاتان اللغتان الترميزيتان الأساسيتان المستخدمتان على الويب. يتم استخدام XML (لغة التوصيف الموسعة) لتنظيم البيانات، بينما يتم استخدام HTML (لغة ترميز النص التشعبي) لتنظيم محتوى الويب.
تستخدم جداول بيانات Google IMPORTXML لاسترداد البيانات من مواقع الويب عن طريق تفسير عناصر XML أو HTML. يمكنك استيراد بيانات مثل الأسعار أو معلومات المخزون أو أي بيانات منظمة أخرى تجدها على صفحات الويب.
كيف يعمل IMPORTXML
IMPORTXML هي وظيفة مضمنة في جداول بيانات Google تستخرج البيانات من عنوان URL محدد باستخدام استعلامات XPath. XPath هي لغة للتنقل في مستندات XML واختيار العقد منها.
لاستخدام IMPORTXML، تحتاج إلى توفير وسيطتين: عنوان URL لصفحة الويب التي تريد استخراجها واستعلام XPath الذي يشير إلى البيانات المحددة التي تريد استخراجها. تقوم جداول بيانات Google بعد ذلك بجلب البيانات وعرضها في جدول البيانات الخاص بك.
مقدمة سريعة عن XPath
يعد XPath أداة قوية لتحديد البيانات من مستند XML أو HTML. ويستخدم تعبيرات المسار للتنقل عبر العناصر والسمات في مستند XML/HTML. إليك مثال مختصر:
لنفترض أنك تريد استخراج عنوان صفحة ويب. استعلام XPath لهذا سيكون:
//title
يخبر هذا الاستعلام جداول بيانات Google بالعثور على جميع عناصر < title > الموجودة في الصفحة.
كيفية استخراج البيانات من موقع ويب إلى جداول بيانات Google
الآن، دعونا نبدأ في تنفيذ بعض عمليات تجريف الويب باستخدام جداول بيانات Google:
- افتح مستند جداول بيانات Google الجديد.
- أدخل عنوان URL لموقع الويب الذي تريد استخراج البيانات منه.
- انقر على خلية في جدول البيانات الخاص بك.
- اكتب =IMPORTXML("URL"، "استعلام XPath")، مع استبدال "URL" بعنوان URL لصفحة الويب و"استعلام XPath" بالاستعلام المطلوب.
- اضغط على Enter، وشاهد السحر يحدث!
ستقوم جداول بيانات Google بجلب البيانات من موقع الويب وعرضها في الخلية المحددة.
تقدم جداول بيانات Google أكثر من مجرد IMPORTXML. يمكنك تحسين مهاراتك في استخراج البيانات من الويب من خلال استكشاف الوظائف الأخرى ذات الصلة مثل IMPORTHTML وIMPORTDATA. تسمح لك هذه الوظائف باستيراد البيانات من جداول HTML وملفات CSV، على التوالي، مما يجعل عملية الحصول على البيانات أكثر تنوعًا.
استيراد جدول من موقع ويب إلى جداول بيانات Google
يعد استيراد الجداول من مواقع الويب إلى جداول بيانات Google أمرًا سهلاً. إليك الطريقة:
- تحديد الجدول: قم بزيارة صفحة الويب التي تحتوي على الجدول الذي تريد استيراده وانقر عليه بزر الماوس الأيمن. حدد "فحص" لفتح أدوات المطور وتحديد موقع كود HTML الذي يمثل الجدول.
- استخدم IMPORTHTML: في مستند جداول بيانات Google، أدخل الصيغة التالية:
=IMPORTHTML("URL"، "جدول"، فهرس)- يجب أن يكون "URL" هو عنوان URL لصفحة الويب.
- يحدد "الجدول" أنك تريد استيراد جدول.
- "الفهرس" هو موضع الجدول على صفحة الويب (استخدم 1 إذا كان هو الجدول الأول).
- اضغط دخول. ستقوم جداول بيانات Google باستيراد الجدول، مما يجعله متاحًا بسهولة للتحليل والمعالجة.
استيراد البيانات من خلاصات XML إلى جداول بيانات Google
تعد خلاصات XML مصدرًا شائعًا للبيانات الديناميكية. لاستيراد البيانات من خلاصات XML إلى جداول بيانات Google:
- احصل على عنوان URL لخلاصة XML: ستحتاج إلى عنوان URL لخلاصة XML التي تريد استيرادها.
- استخدم IMPORTXML: في الخلية، أدخل:
=IMPORTXML("عنوان URL لخلاصة XML"، "استعلام XPath")- "عنوان URL لخلاصة XML" هو عنوان URL لخلاصة XML.
- يجب أن يحدد "استعلام XPath" البيانات التي تريد استخراجها.
- اضغط دخول. ستقوم جداول بيانات Google بسحب البيانات من خلاصة XML وعرضها في جدول البيانات الخاص بك.
تخصيص البيانات المستوردة بواسطة IMPORTFEED
IMPORTFEED هي وظيفة متعددة الاستخدامات تسمح لك باستيراد البيانات من خلاصات متنوعة، مثل RSS. لتخصيص البيانات المستوردة:
- استخدم المعلمة "العنصر": بشكل افتراضي، يقوم IMPORTFEED باستيراد عنصر الموجز الأحدث. لتخصيصه، أضف معلمة "العنصر". على سبيل المثال:
=IMPORTFEED("عنوان URL لخلاصة RSS"، "العنصر"، الرقم)- "عنوان URL لخلاصة RSS" هو عنوان URL لخلاصة RSS.
- يحدد "العنصر" العنصر الذي تريده (على سبيل المثال، "العنوان" أو "الوصف").
- يحدد "num" رقم العنصر (1 للأحدث، و2 لثاني الأحدث، وهكذا).
استيراد البيانات من ملف CSV إلى جداول بيانات Google
تُستخدم ملفات CSV (القيم المفصولة بفواصل) على نطاق واسع لتبادل البيانات. لاستيراد البيانات من ملف CSV إلى جداول بيانات Google:
- افتح جداول بيانات جوجل.
- انقر على "ملف" > "استيراد".
- قم بتحميل ملف CSV الخاص بك.
- تكوين إعدادات الاستيراد: يمكنك تحديد كيفية تعامل جداول بيانات Google مع البيانات، بما في ذلك إعدادات المحدد وتنسيق البيانات.
- انقر فوق "استيراد". ستقوم جداول بيانات Google بإنشاء ورقة جديدة تحتوي على البيانات المستوردة.
هل تبقى البيانات حديثة؟
لا يتم تحديث البيانات المستوردة باستخدام هذه الوظائف تلقائيًا. للحفاظ على البيانات محدثة، تحتاج إلى تحديثها يدويًا. انقر بزر الماوس الأيمن على الخلية التي تحتوي على وظيفة الاستيراد وحدد "تحديث". يمكنك أيضًا إعداد مشغلات تلقائية لتحديث البيانات على فترات زمنية محددة.
مزايا وعيوب وظائف الاستيراد
مزايا:
- سهولة الاستعمال: تعد وظائف الاستيراد في جداول بيانات Google سهلة الاستخدام ولا تتطلب مهارات برمجية.
- براعه: يمكنك استيراد البيانات من مصادر متنوعة، بما في ذلك مواقع الويب وموجزات XML وملفات CSV.
- أتمتة: باستخدام Google Apps Script، يمكنك أتمتة تحديث البيانات ومعالجتها.
العيوب:
- حداثة البيانات: لا يتم تحديث البيانات تلقائيًا، مما قد يمثل عائقًا لاحتياجات البيانات في الوقت الفعلي.
- تغييرات الموقع: إذا تغيرت بنية موقع الويب، فقد تتعطل وظائف الاستيراد الخاصة بك، مما يتطلب إجراء تحديثات.
- قيود الحجم: تحتوي جداول بيانات Google على قيود على كمية البيانات التي يمكنك استيرادها ومعالجتها.
الأخطاء الشائعة
عند استخدام وظائف الاستيراد، قد تواجه أخطاء. تشمل تلك الشائعة ما يلي:
- #N/أ: يحدث هذا الخطأ عندما لا يتطابق XPath أو الاستعلام الذي قدمته مع أي بيانات موجودة على صفحة الويب أو الموجز.
- #REF!: يشير إلى خطأ مرجعي، عادةً بسبب نقل البيانات المصدر أو حذفها.
- 1TP5رعب: هذه رسالة خطأ عامة يمكن أن تنتج عن مشكلات متعددة، بما في ذلك بناء الجملة غير الصحيح أو تجاوز حدود الاستيراد.
في مثل هذه الحالات، تحقق جيدًا من الصيغ واستعلامات XPath ومصادر البيانات لحل الأخطاء.
في هذا الدليل، قمنا بإزالة الغموض عن فن استخراج بيانات الويب باستخدام جداول بيانات Google. لقد تعلمت كيفية استيراد XML وHTML، وكيفية عمل IMPORTXML، وأساسيات XPath، وعملية استخراج البيانات من مواقع الويب إلى جداول بيانات Google. مسلحًا بهذه المعرفة، يمكنك جمع بيانات قيمة للبحث أو التحليل أو أي غرض آخر بسهولة.
حان الوقت الآن لاستكشاف عالم استخراج البيانات من الويب وإطلاق العنان لإمكانات البيانات التي تكون في متناول يدك. تجريف سعيد!
التعليقات (0)
لا توجد تعليقات هنا حتى الآن، يمكنك أن تكون الأول!