오늘날의 데이터 중심 세계에서는 정보가 힘이며, 웹에서 데이터를 활용하는 것이 필수적인 기술이 되었습니다. 널리 사용되는 스프레드시트 도구인 Google 스프레드시트는 IMPORTXML이라는 강력한 기능을 제공합니다. 이 기능을 사용하면 웹사이트에서 데이터를 스크랩하여 스프레드시트로 직접 가져올 수 있습니다. 이 종합 가이드에서는 기본 웹 스크래핑에 Google 스프레드시트를 사용하여 귀중한 데이터를 손쉽게 수집하는 과정을 안내합니다.
XML 및 HTML 가져오기
Google Sheets를 사용한 웹 스크래핑을 시작하기 전에 XML과 HTML의 기본 사항을 이해하는 것이 중요합니다. 이는 웹에서 사용되는 두 가지 주요 마크업 언어입니다. XML(eXtensible Markup Language)은 데이터 구조화에 사용되고 HTML(HyperText Markup Language)은 웹 콘텐츠 구조화에 사용됩니다.
Google 스프레드시트는 IMPORTXML을 사용하여 XML 또는 HTML 요소를 해석하여 웹사이트에서 데이터를 검색합니다. 가격, 주식 정보 또는 웹페이지에서 찾은 기타 구조화된 데이터와 같은 데이터를 가져올 수 있습니다.
IMPORTXML 작동 방식
IMPORTXML은 XPath 쿼리를 사용하여 지정된 URL에서 데이터를 추출하는 Google 스프레드시트에 내장된 함수입니다. XPath는 XML 문서를 탐색하고 그 문서에서 노드를 선택하기 위한 언어입니다.
IMPORTXML을 사용하려면 스크랩하려는 웹페이지의 URL과 추출하려는 특정 데이터를 가리키는 XPath 쿼리라는 두 가지 인수를 제공해야 합니다. 그러면 Google 스프레드시트가 데이터를 가져와 스프레드시트에 표시합니다.
빠른 XPath 소개
XPath는 XML 또는 HTML 문서에서 데이터를 선택하기 위한 강력한 도구입니다. 경로 표현식을 사용하여 XML/HTML 문서의 요소와 속성을 탐색합니다. 간단한 예는 다음과 같습니다.
웹페이지의 제목을 추출한다고 가정해 보겠습니다. 이에 대한 XPath 쿼리는 다음과 같습니다.
//제목
이 쿼리는 Google 스프레드시트에 모든 항목을 찾도록 지시합니다.
웹사이트에서 Google 스프레드시트로 데이터를 추출하는 방법
이제 Google 스프레드시트를 사용하여 웹 스크래핑을 수행해 보겠습니다.
- 새 Google 스프레드시트 문서를 엽니다.
- 데이터를 스크랩하려는 웹사이트 URL을 입력하세요.
- 스프레드시트에서 셀을 클릭합니다.
- =IMPORTXML(“URL”, “XPath 쿼리”)를 입력하고 “URL”을 웹페이지 URL로 바꾸고 “XPath 쿼리”를 원하는 쿼리로 바꿉니다.
- Enter를 누르고 마법이 일어나는 것을 지켜보세요!
Google 스프레드시트는 웹사이트에서 데이터를 가져와 선택한 셀에 표시합니다.
Google 스프레드시트는 IMPORTXML 이상의 기능을 제공합니다. IMPORTHTML 및 IMPORTDATA와 같은 다른 관련 기능을 탐색하여 웹 스크래핑 기술을 향상시킬 수 있습니다. 이러한 기능을 사용하면 HTML 테이블과 CSV 파일에서 각각 데이터를 가져올 수 있으므로 데이터 수집 프로세스가 더욱 다양해집니다.
웹사이트에서 Google Sheets로 표 가져오기
웹사이트의 표를 Google 스프레드시트로 가져오는 것은 매우 쉽습니다. 방법은 다음과 같습니다.
- 테이블을 식별합니다. 가져오려는 테이블이 있는 웹페이지를 방문하여 마우스 오른쪽 버튼을 클릭하세요. "검사"를 선택하여 개발자 도구를 열고 테이블을 나타내는 HTML 코드를 찾습니다.
- IMPORTHTML을 사용하세요. Google 스프레드시트 문서에 다음 수식을 입력하세요.
=IMPORTHTML(“URL”, “테이블”, 색인)- 'URL'은 웹페이지의 URL이어야 합니다.
- "table"은 테이블을 가져오도록 지정합니다.
- "index"는 웹페이지에서 테이블의 위치입니다(첫 번째 테이블인 경우 1 사용).
- 엔터 키를 치시오. Google Sheets는 테이블을 가져와서 쉽게 분석하고 조작할 수 있도록 합니다.
XML 피드에서 Google Sheets로 데이터 가져오기
XML 피드는 동적 데이터의 일반적인 소스입니다. XML 피드의 데이터를 Google Sheets로 가져오려면 다음 단계를 따르세요.
- XML 피드 URL을 가져옵니다. 가져오려는 XML 피드의 URL이 필요합니다.
- IMPORTXML을 사용하십시오. 셀에 다음을 입력합니다.
=IMPORTXML(“XML 피드 URL”, “XPath 쿼리”)- 'XML 피드 URL'은 XML 피드의 URL입니다.
- "XPath 쿼리"는 추출하려는 데이터를 지정해야 합니다.
- 엔터 키를 치시오. Google 스프레드시트는 XML 피드에서 데이터를 가져와 스프레드시트에 표시합니다.
IMPORTFEED로 가져온 데이터 사용자 정의
IMPORTFEED는 RSS 등 다양한 피드에서 데이터를 가져올 수 있는 다목적 기능입니다. 가져온 데이터를 사용자 정의하려면:
- "요소" 매개변수를 사용합니다. 기본적으로 IMPORTFEED는 최신 피드 항목을 가져옵니다. 이를 맞춤설정하려면 'element' 매개변수를 추가하세요. 예를 들어:
=IMPORTFEED(“RSS 피드 URL”, “요소”, 숫자)- "RSS 피드 URL"은 RSS 피드의 URL입니다.
- "요소"는 원하는 요소(예: "제목" 또는 "설명")를 지정합니다.
- "num"은 항목 번호를 결정합니다(1은 가장 최근 항목, 2는 두 번째로 최근 항목 등).
CSV에서 Google Sheets로 데이터 가져오기
CSV(쉼표로 구분된 값) 파일은 데이터 교환에 널리 사용됩니다. CSV 파일의 데이터를 Google 스프레드시트로 가져오려면 다음 단계를 따르세요.
- Google 스프레드시트를 엽니다.
- “파일” > “가져오기”를 클릭하세요.
- CSV 파일을 업로드하세요.
- 가져오기 설정을 구성합니다. 구분 기호 설정 및 데이터 형식을 포함하여 Google 스프레드시트에서 데이터를 처리하는 방법을 지정할 수 있습니다.
- “가져오기”를 클릭하세요. Google 스프레드시트는 가져온 데이터로 새 시트를 만듭니다.
데이터가 최신 상태로 유지되나요?
이러한 기능을 사용하여 가져온 데이터는 자동으로 업데이트되지 않습니다. 데이터를 최신 상태로 유지하려면 수동으로 새로 고쳐야 합니다. 가져오기 기능이 포함된 셀을 마우스 오른쪽 버튼으로 클릭하고 '새로 고침'을 선택하세요. 특정 간격으로 데이터를 새로 고치도록 자동화된 트리거를 설정할 수도 있습니다.
가져오기 기능의 장점과 단점
장점:
- 사용의 용이성: Google 스프레드시트의 가져오기 기능은 사용자에게 친숙하며 코딩 기술이 필요하지 않습니다.
- 다용도성: 웹사이트, XML 피드, CSV 파일을 포함한 다양한 소스에서 데이터를 가져올 수 있습니다.
- 자동화: Google Apps Script를 사용하면 데이터 새로고침 및 처리를 자동화할 수 있습니다.
단점:
- 데이터 최신성: 데이터는 자동으로 업데이트되지 않으므로 실시간 데이터 요구 사항에 단점이 될 수 있습니다.
- 웹사이트 변경 사항: 웹사이트의 구조가 변경되면 가져오기 기능이 중단되어 업데이트가 필요할 수 있습니다.
- 볼륨 제한: Google 스프레드시트에는 가져오고 처리할 수 있는 데이터의 양이 제한되어 있습니다.
일반적인 오류
가져오기 기능을 사용할 때 오류가 발생할 수 있습니다. 일반적인 것들은 다음과 같습니다:
- #N/A: 이 오류는 제공한 XPath 또는 쿼리가 웹페이지 또는 피드의 데이터와 일치하지 않을 때 발생합니다.
- #REF!: 이는 일반적으로 원본 데이터가 이동되거나 삭제되었기 때문에 참조 오류를 나타냅니다.
- 1TP5테러: 이는 잘못된 구문이나 가져오기 제한 초과 등 다양한 문제로 인해 발생할 수 있는 일반적인 오류 메시지입니다.
이러한 경우 수식, XPath 쿼리 및 데이터 소스를 다시 확인하여 오류를 해결하세요.
이 가이드에서는 Google 스프레드시트를 사용하여 웹 스크래핑 기술을 설명했습니다. XML 및 HTML을 가져오는 방법, IMPORTXML 작동 방법, XPath의 기본 사항, 웹사이트에서 Google Sheets로 데이터를 추출하는 프로세스를 배웠습니다. 이러한 지식으로 무장하면 연구, 분석 또는 기타 목적을 위한 귀중한 데이터를 쉽게 수집할 수 있습니다.
이제 웹 스크래핑의 세계를 탐험하고 손끝에서 데이터의 잠재력을 열어볼 시간입니다. 즐거운 스크래핑을 즐겨보세요!
댓글 (0)
여기에는 아직 댓글이 없습니다. 첫 번째 댓글이 되실 수 있습니다!