
Dalam dunia yang digerakkan oleh data saat ini, informasi adalah kekuatan, dan memanfaatkan data dari web telah menjadi keterampilan yang penting. Google Sheets, alat spreadsheet yang banyak digunakan, menawarkan fitur canggih yang disebut IMPORTXML, yang memungkinkan Anda mengambil data dari situs web dan mengimpornya langsung ke spreadsheet Anda. Dalam panduan lengkap ini, kami akan memandu Anda melalui proses penggunaan Google Sheets untuk keperluan dasar pengikisan web, memberdayakan Anda untuk mengumpulkan data berharga dengan mudah.
Mengimpor XML dan HTML
Sebelum kita mendalami web scraping dengan Google Sheets, penting untuk memahami dasar-dasar XML dan HTML. Ini adalah dua bahasa markup utama yang digunakan di web. XML (eXtensible Markup Language) digunakan untuk penataan data, sedangkan HTML (HyperText Markup Language) digunakan untuk penataan konten web.
Google Spreadsheet menggunakan IMPORTXML untuk mengambil data dari situs web dengan menafsirkan elemen XML atau HTML. Anda dapat mengimpor data seperti harga, informasi stok, atau data terstruktur lainnya yang Anda temukan di halaman web.
Cara kerja IMPORTXML
IMPORTXML adalah fungsi bawaan di Google Spreadsheet yang mengekstrak data dari URL tertentu menggunakan kueri XPath. XPath adalah bahasa untuk menavigasi dokumen XML dan memilih node darinya.
Untuk menggunakan IMPORTXML, Anda perlu memberikan dua argumen: URL halaman web yang ingin Anda kikis dan kueri XPath yang menunjuk ke data spesifik yang ingin Anda ekstrak. Google Spreadsheet kemudian mengambil data dan menampilkannya di spreadsheet Anda.
Pengenalan XPath cepat
XPath adalah alat yang ampuh untuk memilih data dari dokumen XML atau HTML. Ia menggunakan ekspresi jalur untuk menavigasi elemen dan atribut dalam dokumen XML/HTML. Berikut ini contoh singkatnya:
Katakanlah Anda ingin mengekstrak judul halaman web. Permintaan XPath untuk ini adalah:
//title
Kueri ini memberi tahu Google Sheets untuk menemukan semua elemen <title> pada halaman.
Cara mengekstrak data dari website ke Google Sheets
Sekarang, mari kita mulai mengotori tangan kita dan melakukan beberapa web scraping dengan Google Sheets:
- Buka dokumen Google Spreadsheet baru.
- Masukkan URL situs web yang datanya ingin Anda ambil.
- Klik pada sel di spreadsheet Anda.
- Ketik =IMPORTXML(“URL”, “XPath Query”), ganti “URL” dengan URL halaman web dan “XPath Query” dengan kueri yang Anda inginkan.
- Tekan Enter, dan saksikan keajaiban terjadi!
Google Sheets akan mengambil data dari situs web dan menampilkannya di sel yang dipilih.
Google Spreadsheet menawarkan lebih dari sekadar IMPORTXML. Anda dapat meningkatkan keterampilan web scraping Anda dengan menjelajahi fungsi terkait lainnya seperti IMPORTHTML dan IMPORTDATA. Fungsi-fungsi ini memungkinkan Anda mengimpor data dari tabel HTML dan file CSV, sehingga membuat proses akuisisi data Anda menjadi lebih fleksibel.
Impor tabel dari situs web ke Google Spreadsheet
Mengimpor tabel dari situs web ke Google Spreadsheet sangatlah mudah. Begini caranya:
- Identifikasi tabel: Kunjungi halaman web dengan tabel yang ingin Anda impor dan klik kanan di atasnya. Pilih "Periksa" untuk membuka alat pengembang dan temukan kode HTML yang mewakili tabel.
- Gunakan IMPORTHTML: Di dokumen Google Sheets Anda, masukkan rumus berikut:
=IMPORTHTML(“URL”, “tabel”, indeks)- “URL” harus menjadi URL halaman web.
- "tabel" menentukan bahwa Anda ingin mengimpor tabel.
- “indeks” adalah posisi tabel pada halaman web (gunakan 1 jika tabel pertama).
- Tekan enter. Google Spreadsheet akan mengimpor tabel sehingga siap untuk dianalisis dan dimanipulasi.
Impor data dari umpan XML ke Google Spreadsheet
Umpan XML adalah sumber umum data dinamis. Untuk mengimpor data dari umpan XML ke Google Spreadsheet:
- Dapatkan URL umpan XML: Anda memerlukan URL feed XML yang ingin Anda impor.
- Gunakan IMPORTXML: Di dalam sel, masukkan:
=IMPORTXML("URL umpan XML", "Permintaan XPath")- “URL umpan XML” adalah URL umpan XML.
- "XPath Query" harus menentukan data yang ingin Anda ekstrak.
- Tekan enter. Google Spreadsheet akan mengambil data dari feed XML dan menampilkannya di spreadsheet Anda.
Menyesuaikan data yang diimpor oleh IMPORTFEED
IMPORTFEED adalah fungsi serbaguna yang memungkinkan Anda mengimpor data dari berbagai feed, seperti RSS. Untuk menyesuaikan data yang diimpor:
- Gunakan parameter "elemen": Secara default, IMPORTFEED mengimpor item feed terbaru. Untuk menyesuaikannya, tambahkan parameter “elemen”. Misalnya:
=IMPORTFEED("URL umpan RSS", "elemen", nomor)- “URL umpan RSS” adalah URL umpan RSS.
- "elemen" menentukan elemen yang Anda inginkan (misalnya, "judul" atau "deskripsi").
- “num” menentukan nomor item (1 untuk item terbaru, 2 untuk item terbaru kedua, dan seterusnya).
Mengimpor Data dari CSV ke Google Spreadsheet
File CSV (Comma-Separated Values) banyak digunakan untuk pertukaran data. Untuk mengimpor data dari file CSV ke Google Spreadsheet:
- Buka Google Spreadsheet.
- Klik pada “File” > “Impor.”
- Unggah file CSV Anda.
- Konfigurasikan pengaturan impor: Anda dapat menentukan cara Google Spreadsheet menangani data, termasuk setelan pembatas dan pemformatan data.
- Klik “Impor.” Google Spreadsheet akan membuat sheet baru dengan data yang diimpor.
Apakah datanya tetap segar?
Data yang diimpor menggunakan fungsi ini tidak diperbarui secara otomatis. Agar data tetap segar, Anda perlu menyegarkannya secara manual. Klik kanan pada sel yang berisi fungsi impor dan pilih “Refresh.” Anda juga dapat menyiapkan pemicu otomatis untuk menyegarkan data pada interval tertentu.
Kelebihan dan kekurangan fungsi impor
Keuntungan:
- Kemudahan penggunaan: Fungsi impor di Google Spreadsheet mudah digunakan dan tidak memerlukan keahlian coding.
- Keserbagunaan: Anda dapat mengimpor data dari berbagai sumber, termasuk situs web, feed XML, dan file CSV.
- Otomatisasi: Dengan Google Apps Script, Anda dapat mengotomatiskan penyegaran dan pemrosesan data.
Kekurangan:
- Kesegaran data: Data tidak diperbarui secara otomatis, yang dapat menjadi kelemahan kebutuhan data real-time.
- Perubahan situs web: Jika struktur situs web berubah, fungsi impor Anda mungkin rusak sehingga memerlukan pembaruan.
- Batasan volume: Google Spreadsheet memiliki batasan jumlah data yang dapat Anda impor dan proses.
Kesalahan Umum
Saat menggunakan fungsi impor, Anda mungkin mengalami kesalahan. Yang umum meliputi:
- #N/A: Kesalahan ini terjadi ketika XPath atau kueri yang Anda berikan tidak cocok dengan data apa pun di halaman web atau feed.
- #REF!: Ini menunjukkan kesalahan referensi, biasanya karena data sumber dipindahkan atau dihapus.
- #EROR: Ini adalah pesan kesalahan umum yang dapat disebabkan oleh berbagai masalah, termasuk sintaksis yang salah atau melebihi batas impor.
Dalam kasus seperti itu, periksa kembali rumus, kueri XPath, dan sumber data Anda untuk mengatasi kesalahan tersebut.
Dalam panduan ini, kami telah mengungkap seni web scraping menggunakan Google Spreadsheet. Anda telah mempelajari cara mengimpor XML dan HTML, cara kerja IMPORTXML, dasar-dasar XPath, dan proses mengekstraksi data dari situs web ke Google Spreadsheet. Berbekal pengetahuan ini, Anda dapat mengumpulkan data berharga untuk penelitian, analisis, atau tujuan lainnya dengan mudah.
Kini, saatnya Anda menjelajahi dunia web scraping dan membuka potensi data di ujung jari Anda. Selamat menggores!
Komentar (0)
Belum ada komentar di sini, Anda bisa menjadi yang pertama!