നിങ്ങൾ ഒരു ഗവേഷകനോ വിപണനക്കാരനോ അല്ലെങ്കിൽ ഡാറ്റാ പ്രേമിയോ ആകട്ടെ, വെബിൽ നിന്ന് ഡാറ്റ ശേഖരിക്കാനും പ്രോസസ്സ് ചെയ്യാനുമുള്ള കഴിവ് ഒരു ഗെയിം ചേഞ്ചർ ആകാം. ഒരു ബഹുമുഖ ഡാറ്റാ ഫോർമാറ്റായ XML ഉം ശക്തമായ പൈത്തൺ ലൈബ്രറിയായ lxml ഉം ശക്തികളെ സംയോജിപ്പിച്ച് വെബ് സ്ക്രാപ്പിംഗും ഡാറ്റ എക്സ്ട്രാക്ഷനും ഒരു കാറ്റ് ആക്കുന്നു. ഈ ലേഖനം എൽഎക്സ്എംഎൽ ഉപയോഗിച്ച് എക്സ്എംഎൽ പ്രോസസ്സിംഗിന്റെയും വെബ് സ്ക്രാപ്പിംഗിന്റെയും ലോകത്തേക്ക് കടന്നുചെല്ലും, വെബിന്റെ ഡാറ്റാ നിധികൾ പ്രയോജനപ്പെടുത്തുന്നതിനുള്ള അറിവും വൈദഗ്ധ്യവും നിങ്ങളെ സജ്ജമാക്കും.
എന്താണ് XML?
എക്സ്റ്റൻസിബിൾ മാർക്ക്അപ്പ് ഭാഷ മനസ്സിലാക്കുന്നു
എൽഎക്സ്എംഎൽ ഉപയോഗിച്ച് വെബ് സ്ക്രാപ്പിംഗിന്റെയും ഡാറ്റ പ്രോസസ്സിംഗിന്റെയും ഞങ്ങളുടെ യാത്ര ആരംഭിക്കുന്നതിന്, അടിസ്ഥാന നിർമ്മാണ ബ്ലോക്കായ എക്സ്എംഎൽ മനസ്സിലാക്കേണ്ടത് അത്യാവശ്യമാണ്. വിപുലീകരിക്കാവുന്ന മാർക്ക്അപ്പ് ലാംഗ്വേജ്, അല്ലെങ്കിൽ XML, വിവരങ്ങൾ രൂപപ്പെടുത്തുന്നതിനും പങ്കിടുന്നതിനുമുള്ള ഒരു സാർവത്രിക മാനദണ്ഡമായി പ്രവർത്തിക്കുന്ന ഒരു ജനപ്രിയ ഡാറ്റ ഫോർമാറ്റാണ്. ഈ വിഭാഗത്തിൽ, XML-ന്റെ ഉദ്ദേശ്യം, ഘടന, സവിശേഷതകൾ എന്നിവ ഉൾപ്പെടെയുള്ള പ്രധാന ആശയങ്ങൾ ഞങ്ങൾ വെളിപ്പെടുത്തും.
XML ഘടനയും വാക്യഘടനയും
XML-ന്റെ ലോകത്തേക്ക് കൂടുതൽ ആഴത്തിൽ നീങ്ങുമ്പോൾ, XML പ്രമാണങ്ങളുടെ വാക്യഘടനയും ഘടനയും ഞങ്ങൾ പര്യവേക്ഷണം ചെയ്യും. ഘടകങ്ങൾ, ആട്രിബ്യൂട്ടുകൾ, XML നിർവചിക്കുന്ന ശ്രേണി എന്നിവയെ കുറിച്ചുള്ള ഉൾക്കാഴ്ച നിങ്ങൾക്ക് ലഭിക്കും. XML ഡോക്യുമെന്റുകളിൽ നിന്ന് വിവരങ്ങൾ പ്രോസസ്സ് ചെയ്യാനും എക്സ്ട്രാക്റ്റുചെയ്യാനും ഞങ്ങൾ മുന്നോട്ട് പോകുമ്പോൾ, XML-ൽ ഡാറ്റ എങ്ങനെ ഓർഗനൈസ് ചെയ്യപ്പെടുന്നുവെന്ന് മനസ്സിലാക്കുന്നത് നിർണായകമാണ്.
lxml അവതരിപ്പിക്കുന്നു
പൈത്തണിനുള്ള lxml-ന്റെ ശക്തി
XML പ്രോസസ്സിംഗിന്റെയും വെബ് സ്ക്രാപ്പിംഗിന്റെയും പ്രായോഗിക വശങ്ങളിലേക്ക് കടക്കുന്നതിന് മുമ്പ്, ഞങ്ങളുടെ രഹസ്യ ആയുധം അവതരിപ്പിക്കേണ്ടത് നിർണായകമാണ്: lxml. ഈ പൈത്തൺ ലൈബ്രറി XML, HTML പ്രമാണങ്ങൾ കാര്യക്ഷമമായി പാഴ്സിംഗ് ചെയ്യുന്നതിനും പ്രോസസ്സ് ചെയ്യുന്നതിനുമുള്ള കഴിവുകൾക്ക് പേരുകേട്ടതാണ്. lxml-ന്റെ ജനപ്രീതിക്ക് പിന്നിലെ കാരണങ്ങളും അത് വെബിൽ നിന്ന് ഡാറ്റ എക്സ്ട്രാക്ഷൻ എങ്ങനെ ലളിതമാക്കുന്നു എന്നതും ഞങ്ങൾ കണ്ടെത്തും.
ഇൻസ്റ്റാളേഷനും സജ്ജീകരണവും
ഈ വിഭാഗത്തിൽ, lxml-ന്റെ ഇൻസ്റ്റാളേഷനും സജ്ജീകരണവും വഴി ഞങ്ങൾ നിങ്ങളെ നയിക്കും. വെബ് സ്ക്രാപ്പിംഗും എക്സ്എംഎൽ പ്രോസസ്സിംഗ് പ്രോജക്ടുകളും നേരിടാൻ തയ്യാറാണെന്നും നിങ്ങൾ എൽഎക്സ്എംഎൽ സജീവമാണെന്നും പ്രവർത്തിക്കുന്നുണ്ടെന്നും ഉറപ്പാക്കാൻ ഞങ്ങൾ ഘട്ടം ഘട്ടമായുള്ള നിർദ്ദേശങ്ങൾ നൽകും. നിങ്ങൾ ഒരു തുടക്കക്കാരനായാലും പരിചയസമ്പന്നനായ പൈത്തണിസ്റ്റയായാലും, ഈ വിഭാഗം നിങ്ങൾക്ക് അമൂല്യമായി കാണാനാകും.
പൈത്തണിൽ lxml ലൈബ്രറി ഇൻസ്റ്റാൾ ചെയ്യാൻ, നിങ്ങൾക്ക് pip പാക്കേജ് മാനേജർ ഉപയോഗിക്കാം, ഇത് പൈത്തൺ ലൈബ്രറികൾ ഇൻസ്റ്റാൾ ചെയ്യുന്നതിനുള്ള ഒരു സാധാരണ മാർഗമാണ്. lxml ഇൻസ്റ്റാൾ ചെയ്യാൻ ഈ ഘട്ടങ്ങൾ പാലിക്കുക:
- നിങ്ങളുടെ കമ്പ്യൂട്ടറിൽ നിങ്ങളുടെ കമാൻഡ്-ലൈൻ ടെർമിനലോ കമാൻഡ് പ്രോംപ്റ്റോ തുറക്കുക.
- lxml ഇൻസ്റ്റാൾ ചെയ്യുന്നതിന്, ഇനിപ്പറയുന്ന കമാൻഡ് പ്രവർത്തിപ്പിക്കുക:
pip ഇൻസ്റ്റാൾ lxml
lxml ലൈബ്രറിയും അതിന്റെ ഡിപൻഡൻസികളും ഡൗൺലോഡ് ചെയ്ത് ഇൻസ്റ്റാൾ ചെയ്യുന്നതിനായി pip കാത്തിരിക്കുക. ഇൻസ്റ്റലേഷൻ പ്രക്രിയയ്ക്ക് കുറച്ച് നിമിഷങ്ങൾ എടുത്തേക്കാം.
ഇൻസ്റ്റാളേഷൻ പൂർത്തിയായിക്കഴിഞ്ഞാൽ, പ്രവർത്തിപ്പിച്ച് നിങ്ങൾക്ക് ഇത് സ്ഥിരീകരിക്കാൻ കഴിയും:
sql
പിപ്പ് ഷോ lxml
- ഈ കമാൻഡ് ഇൻസ്റ്റാൾ ചെയ്ത lxml പാക്കേജിനെക്കുറിച്ചുള്ള വിവരങ്ങൾ പ്രദർശിപ്പിക്കും, ഇത് വിജയകരമായി ഇൻസ്റ്റാൾ ചെയ്തുവെന്ന് സ്ഥിരീകരിക്കുന്നു.
അത്രയേയുള്ളൂ! നിങ്ങൾ ഇപ്പോൾ lxml ലൈബ്രറി ഇൻസ്റ്റാൾ ചെയ്തു, പൈത്തണിൽ XML പ്രോസസ്സിംഗിനും വെബ് സ്ക്രാപ്പിംഗിനും ഇത് ഉപയോഗിക്കാൻ തുടങ്ങാം.
lxml ഉപയോഗിച്ച് XML പാഴ്സ് ചെയ്യുന്നു
മാസ്റ്ററിംഗ് XML പാഴ്സിംഗ്
XML പ്രോസസ്സിംഗിന്റെ ഹൃദയം അതിന്റെ പാഴ്സിംഗിലാണ്. ഈ വിഭാഗത്തിൽ, lxml ഉപയോഗിച്ച് XML ഡോക്യുമെന്റുകൾ പാഴ്സുചെയ്യുന്നതിനുള്ള കല ഞങ്ങൾ പരിശോധിക്കും. XML ഡാറ്റ എങ്ങനെ എളുപ്പത്തിൽ വായിക്കാമെന്നും നാവിഗേറ്റ് ചെയ്യാമെന്നും കൈകാര്യം ചെയ്യാമെന്നും നിങ്ങൾ കണ്ടെത്തും. അടിസ്ഥാന പാഴ്സിംഗ് ടെക്നിക്കുകൾ മുതൽ വിപുലമായ തന്ത്രങ്ങൾ വരെ, ഞങ്ങൾ നിങ്ങളെ പരിരക്ഷിച്ചിരിക്കുന്നു.
XPath: നിങ്ങളുടെ ആത്യന്തിക ആയുധം
XML പ്രോസസ്സിംഗിന്റെ മേഖലയിലേക്ക് കൂടുതൽ ആഴത്തിൽ കടക്കുമ്പോൾ, XPath-ന്റെ ശക്തി ഞങ്ങൾ അനാവരണം ചെയ്യും. XML പ്രമാണങ്ങൾ നാവിഗേറ്റ് ചെയ്യുന്നതിനായി പ്രത്യേകം രൂപകൽപ്പന ചെയ്ത ഒരു ഭാഷയാണ് XPath. നിങ്ങൾക്ക് ആവശ്യമുള്ള ഡാറ്റ കൃത്യമായി കണ്ടെത്തുന്നതിനും എക്സ്ട്രാക്റ്റുചെയ്യുന്നതിനും XPath എക്സ്പ്രഷനുകളുടെ മുഴുവൻ സാധ്യതകളും എങ്ങനെ പ്രയോജനപ്പെടുത്താമെന്ന് നിങ്ങൾ പഠിക്കും. ഇവിടെയാണ് വെബ് സ്ക്രാപ്പിംഗ് ശരിക്കും കാര്യക്ഷമമാകുന്നത്.
lxml ഉപയോഗിച്ച് വെബ് സ്ക്രാപ്പിംഗ്
വെബ് സ്ക്രാപ്പിംഗിന്റെ ലോകം അനാവരണം ചെയ്യുന്നു
XML പ്രോസസ്സിംഗിനെയും lxml നെയും കുറിച്ച് വ്യക്തമായ ധാരണയോടെ, വെബ് സ്ക്രാപ്പിംഗ് പര്യവേക്ഷണം ചെയ്യാൻ ഞങ്ങൾ തയ്യാറാണ്. വെബ്സൈറ്റുകളിൽ നിന്ന് ഡാറ്റ എക്സ്ട്രാക്റ്റുചെയ്യുന്ന പ്രക്രിയയാണ് വെബ് സ്ക്രാപ്പിംഗ്, ഈ ടാസ്ക്കിന്റെ നിങ്ങളുടെ വിശ്വസ്ത കൂട്ടാളിയാണ് lxml. ഈ വിഭാഗത്തിൽ, വെബ് ഉള്ളടക്കം കാര്യക്ഷമമായും ഉത്തരവാദിത്തത്തോടെയും സ്ക്രാപ്പ് ചെയ്യുന്നതിനുള്ള ഒരു യാത്ര ഞങ്ങൾ ആരംഭിക്കും.
പ്രായോഗിക വെബ് സ്ക്രാപ്പിംഗ് ഉദാഹരണങ്ങൾ
വെബ് സ്ക്രാപ്പിംഗിൽ പ്രാവീണ്യം നേടാനുള്ള ഏറ്റവും നല്ല മാർഗമാണ് ചെയ്യുന്നത് വഴിയുള്ള പഠനം. വിവിധ തരത്തിലുള്ള വെബ് ഉള്ളടക്കങ്ങൾ എങ്ങനെ സ്ക്രാപ്പ് ചെയ്യാമെന്ന് കാണിക്കുന്ന യഥാർത്ഥ ലോക ഉദാഹരണങ്ങളിലൂടെ ഞങ്ങൾ നിങ്ങളെ നയിക്കും. ടെക്സ്റ്റുകളും ചിത്രങ്ങളും സ്ക്രാപ്പുചെയ്യുന്നത് മുതൽ ഡൈനാമിക് വെബ്സൈറ്റുകൾ കൈകാര്യം ചെയ്യുന്നത് വരെ, നിങ്ങളുടെ വെബ് സ്ക്രാപ്പിംഗ് പ്രോജക്ടുകളിലേക്ക് പ്രയോഗിക്കാൻ കഴിയുന്ന പ്രായോഗിക ഉൾക്കാഴ്ചകൾ നിങ്ങൾക്ക് ലഭിക്കും.
ഡാറ്റ പ്രോസസ്സിംഗും ആപ്ലിക്കേഷനുകളും
വെബ് സ്ക്രാപ്പിംഗിനപ്പുറം
വെബ് സ്ക്രാപ്പിംഗ് ഒരു തുടക്കം മാത്രമാണ്. ഈ വിഭാഗത്തിൽ, XML പ്രോസസ്സിംഗിന്റെയും ഡാറ്റ എക്സ്ട്രാക്ഷന്റെയും വിശാലമായ ആപ്ലിക്കേഷനുകൾ ഞങ്ങൾ പര്യവേക്ഷണം ചെയ്യും. നിങ്ങൾ സ്ക്രാപ്പ് ചെയ്ത ഡാറ്റ എങ്ങനെ പ്രോസസ്സ് ചെയ്യാമെന്നും വിശകലനം ചെയ്യാമെന്നും ഡാറ്റ അനലിറ്റിക്സ് മുതൽ ഉള്ളടക്ക സംഗ്രഹം വരെ വ്യത്യസ്ത ഡൊമെയ്നുകളിൽ പ്രയോഗിക്കാമെന്നും നിങ്ങൾ കണ്ടെത്തും.
മികച്ച രീതികളും നുറുങ്ങുകളും
ഒരു വെബ് സ്ക്രാപ്പിംഗ് പ്രോ ആയി മാറുന്നു
ഞങ്ങളുടെ lxml ട്യൂട്ടോറിയൽ അവസാനിപ്പിക്കാൻ, കാര്യക്ഷമമായ വെബ് സ്ക്രാപ്പിംഗിനും XML പ്രോസസ്സിംഗിനുമുള്ള അവശ്യ മികച്ച സമ്പ്രദായങ്ങളും നുറുങ്ങുകളും ഞങ്ങൾ പങ്കിടും. ഒരു ഉത്തരവാദിത്തമുള്ള വെബ് സ്ക്രാപ്പർ ആകുന്നത് എങ്ങനെയെന്ന് നിങ്ങൾ പഠിക്കും, പൊതുവായ പോരായ്മകൾ ഒഴിവാക്കുക, നിങ്ങളുടെ പ്രോജക്റ്റുകൾക്കിടയിൽ ഉണ്ടായേക്കാവുന്ന വെല്ലുവിളികളെ തരണം ചെയ്യുക.
അടുത്ത ഘട്ടങ്ങൾ
ഇവിടെ നിന്ന് എങ്ങോട്ട് പോകണം
ഈ lxml ട്യൂട്ടോറിയൽ പൂർത്തിയാക്കിയ ശേഷം, നിങ്ങൾക്ക് XML പ്രോസസ്സിംഗിലും വെബ് സ്ക്രാപ്പിംഗിലും ശക്തമായ അടിത്തറ ലഭിക്കും. നിങ്ങളുടെ കഴിവുകൾ കൂടുതൽ മെച്ചപ്പെടുത്തുന്നതിനുള്ള അടുത്ത ഘട്ടങ്ങളെക്കുറിച്ച് ഞങ്ങൾ നിങ്ങളെ നയിക്കും. അത് നൂതനമായ lxml സവിശേഷതകൾ പര്യവേക്ഷണം ചെയ്യുകയോ, പ്രത്യേക വെബ് സ്ക്രാപ്പിംഗ് സാഹചര്യങ്ങളിലേക്ക് ഡൈവിംഗ് ചെയ്യുകയോ അല്ലെങ്കിൽ അനുബന്ധ സാങ്കേതികവിദ്യകളിൽ പ്രാവീണ്യം നേടുകയോ ചെയ്താലും, നിങ്ങളുടെ പഠന യാത്ര തുടരുന്നു.
അഭിനന്ദനങ്ങൾ! XML പ്രോസസ്സിംഗും വെബ് സ്ക്രാപ്പിംഗും സംബന്ധിച്ച ഞങ്ങളുടെ സമഗ്രമായ lxml ട്യൂട്ടോറിയലിന്റെ അവസാനത്തിൽ നിങ്ങൾ എത്തിയിരിക്കുന്നു. ഈ യാത്രയിലുടനീളം, ഡാറ്റ എക്സ്ട്രാക്ഷൻ, കൃത്രിമത്വം എന്നിവയുടെ ലോകത്തിലെ വിവിധ വെല്ലുവിളികളെ നേരിടാൻ നിങ്ങളെ പ്രാപ്തമാക്കാൻ കഴിയുന്ന അവശ്യ വൈദഗ്ധ്യങ്ങളും അറിവും നിങ്ങൾ നേടിയിട്ടുണ്ട്.
XML പ്രോസസ്സിംഗ്, വെബ് സ്ക്രാപ്പിംഗ്, lxml എന്നിവയ്ക്ക് വിപുലമായ സാധ്യതകളിലേക്കും അവസരങ്ങളിലേക്കും വാതിലുകൾ തുറക്കാനാകും. നിങ്ങൾ കണ്ടതുപോലെ, ഡാറ്റ വിശകലനം, ഉള്ളടക്ക സംഗ്രഹം, ഓട്ടോമേഷൻ എന്നിവയും അതിലേറെയും പോലുള്ള മേഖലകളിൽ ഈ കഴിവുകൾ വിലപ്പെട്ടതാണ്.
ചുരുക്കത്തിൽ, നിങ്ങൾ പഠിച്ചത് ഇതാ:
- XML-ന്റെ ഘടന, ഘടകങ്ങൾ, ആട്രിബ്യൂട്ടുകൾ എന്നിവ ഉൾപ്പെടെയുള്ള അടിസ്ഥാനകാര്യങ്ങൾ.
- lxml ഉപയോഗിച്ച് XML പ്രമാണങ്ങൾ എങ്ങനെ സൃഷ്ടിക്കാം, പാഴ്സ് ചെയ്യാം, കൈകാര്യം ചെയ്യാം.
- XML ഡാറ്റയുടെ കാര്യക്ഷമമായ നാവിഗേഷനായി XPath-ന്റെ ശക്തി.
- വെബ് സ്ക്രാപ്പിംഗ് തത്വങ്ങളും മികച്ച രീതികളും.
- lxml ഉപയോഗിച്ച് യഥാർത്ഥ ലോക വെബ് സ്ക്രാപ്പിംഗ് ഉദാഹരണങ്ങൾ.
- വെബ് സ്ക്രാപ്പിംഗിനുപുറമെ XML പ്രോസസ്സിംഗിന്റെ വിശാലമായ ആപ്ലിക്കേഷനുകൾ.
- ഉത്തരവാദിത്തമുള്ള വെബ് സ്ക്രാപ്പിംഗിന് ആവശ്യമായ മികച്ച സമ്പ്രദായങ്ങൾ.
നിങ്ങളുടെ പക്കലുള്ള ഈ അറിവ് ഉപയോഗിച്ച്, നിങ്ങളുടെ സ്വന്തം വെബ് സ്ക്രാപ്പിംഗും ഡാറ്റ പ്രോസസ്സിംഗ് പ്രോജക്റ്റുകളും ആരംഭിക്കാൻ നിങ്ങൾ നന്നായി സജ്ജരാണ്. നിങ്ങൾ ഗവേഷണത്തിനോ ബിസിനസ്സിനോ വ്യക്തിഗത ഉപയോഗത്തിനോ വേണ്ടി ഡാറ്റ എക്സ്ട്രാക്റ്റുചെയ്യുകയാണെങ്കിലും, അത് സാധ്യമാക്കാനുള്ള ടൂളുകൾ നിങ്ങൾക്കുണ്ട്.
ഓർക്കുക, പരിശീലനം മികച്ചതാക്കുന്നു. പരീക്ഷണങ്ങൾ നടത്താനും പുതിയ വെല്ലുവിളികൾ നേരിടാനും നിങ്ങളുടെ കഴിവുകൾ മെച്ചപ്പെടുത്താനും മടിക്കരുത്. വെബ് സ്ക്രാപ്പിംഗിന്റെയും XML പ്രോസസ്സിംഗിന്റെയും ലോകം തുടർച്ചയായി വികസിച്ചുകൊണ്ടിരിക്കുന്നു, അതിനാൽ ജിജ്ഞാസയും അനുയോജ്യതയും നിലനിർത്തുന്നത് നിങ്ങളുടെ വിജയത്തിന്റെ താക്കോലാണ്.
ഈ lxml ട്യൂട്ടോറിയൽ വിജ്ഞാനപ്രദവും ആകർഷകവും ആയി നിങ്ങൾ കണ്ടെത്തിയെന്ന് ഞങ്ങൾ പ്രതീക്ഷിക്കുന്നു. നിങ്ങൾക്ക് എന്തെങ്കിലും ചോദ്യങ്ങളുണ്ടെങ്കിൽ, എന്തെങ്കിലും തടസ്സങ്ങൾ നേരിടുകയോ അല്ലെങ്കിൽ പ്രത്യേക വിഷയങ്ങൾ കൂടുതൽ ആഴത്തിൽ പര്യവേക്ഷണം ചെയ്യാൻ ആഗ്രഹിക്കുകയോ ചെയ്യുകയാണെങ്കിൽ, പഠന യാത്ര ഒരിക്കലും അവസാനിക്കില്ലെന്ന് ഓർക്കുക.
കോഡിംഗ് തുടരുക, പര്യവേക്ഷണം ചെയ്യുന്നത് തുടരുക, സ്ക്രാപ്പ് ചെയ്യുന്നത് തുടരുക! lxml ഉപയോഗിച്ച് സന്തോഷകരമായ വെബ് സ്ക്രാപ്പിംഗ്!
ഉദാഹരണങ്ങൾ
ഉദാഹരണം 1: ഒരു XML പ്രമാണം പാഴ്സ് ചെയ്യുന്നു
ഈ ഉദാഹരണത്തിൽ, ഞങ്ങൾ lxml ഉപയോഗിച്ച് ഒരു XML പ്രമാണം പാഴ്സ് ചെയ്യുകയും നിർദ്ദിഷ്ട ഘടകങ്ങളും അവയുടെ മൂല്യങ്ങളും എക്സ്ട്രാക്റ്റുചെയ്യുകയും ചെയ്യും. "example.xml" എന്ന പേരിൽ ഒരു XML ഡോക്യുമെന്റ് ഞങ്ങളുടെ പക്കലുണ്ടെന്ന് കരുതുക.
# lxml ലൈബ്രറി ഇറക്കുമതി ചെയ്യുക
lxml ഇറക്കുമതി etree ൽ നിന്ന്
# XML പ്രമാണം ലോഡ് ചെയ്യുക
വൃക്ഷം = etree.parse(“example.xml”)
# റൂട്ട് ഘടകം നേടുക
റൂട്ട് = tree.getroot()
# നിർദ്ദിഷ്ട ഡാറ്റ എക്സ്ട്രാക്റ്റ് ചെയ്യുക
root.iter ("പുസ്തകം") ലെ പുസ്തകത്തിനായി:
ശീർഷകം = book.find(“title”).text
രചയിതാവ് = book.find(“author”).text
പ്രിന്റ്(f”ശീർഷകം: {title}, രചയിതാവ്: {author}”)
ഉദാഹരണം 2: lxml ഉപയോഗിച്ച് വെബ് സ്ക്രാപ്പിംഗ്
ഈ ഉദാഹരണത്തിൽ, lxml ഉം അഭ്യർത്ഥനകളും ഉപയോഗിച്ച് ഞങ്ങൾ ഒരു വെബ്പേജിൽ നിന്ന് ഡാറ്റ സ്ക്രാപ്പ് ചെയ്യും. ഒരു ബ്ലോഗിൽ നിന്ന് ലേഖനങ്ങളുടെ തലക്കെട്ടുകൾ വേർതിരിച്ചെടുക്കാം.
# ആവശ്യമായ ലൈബ്രറികൾ ഇറക്കുമതി ചെയ്യുക
ഇറക്കുമതി അഭ്യർത്ഥനകൾ
lxml ഇറക്കുമതി html-ൽ നിന്ന്
സ്ക്രാപ്പ് ചെയ്യാൻ വെബ്പേജിന്റെ # URL
url = “https://example-blog.com/articles”
# ഒരു HTTP അഭ്യർത്ഥന അയച്ച് വെബ്പേജ് ഉള്ളടക്കം നേടുക
പ്രതികരണം = requests.get(url)
webpage = response.text
# lxml ഉപയോഗിച്ച് വെബ്പേജ് ഉള്ളടക്കം പാഴ്സ് ചെയ്യുക
parsed_webpage = html.fromstring(webpage)
# ലേഖന ശീർഷകങ്ങൾ എക്സ്ട്രാക്റ്റ് ചെയ്യുക
തലക്കെട്ടുകൾ = parsed_webpage.xpath(“//h2[@class='article-title']/text()”)
# എക്സ്ട്രാക്റ്റുചെയ്ത ശീർഷകങ്ങൾ പ്രിന്റുചെയ്യുക
ശീർഷകങ്ങളിലെ ശീർഷകത്തിനായി:
പ്രിന്റ് ("ശീർഷകം:", ശീർഷകം)
ഉദാഹരണം 3: ഒന്നിലധികം പേജുകൾ സ്ക്രാപ്പ് ചെയ്യുക
ഈ ഉദാഹരണത്തിൽ, ഞങ്ങൾ lxml ഉപയോഗിച്ച് ഒന്നിലധികം പേജുകളിൽ നിന്നുള്ള ഡാറ്റ സ്ക്രാപ്പ് ചെയ്യും. ലിസ്റ്റിംഗുകളുടെ ഒന്നിലധികം പേജുകളുള്ള ഒരു ഇ-കൊമേഴ്സ് വെബ്സൈറ്റിൽ നിന്ന് ഞങ്ങൾ ഉൽപ്പന്ന നാമങ്ങളും വിലകളും എക്സ്ട്രാക്റ്റുചെയ്യും.
# ആവശ്യമായ ലൈബ്രറികൾ ഇറക്കുമതി ചെയ്യുക
ഇറക്കുമതി അഭ്യർത്ഥനകൾ
lxml ഇറക്കുമതി html-ൽ നിന്ന്
സ്ക്രാപ്പ് ചെയ്യേണ്ട ആദ്യ പേജിന്റെ # URL
base_url = “https://example-ecommerce-site.com/products?page=”
# ഡാറ്റ സംഭരിക്കുന്നതിന് ഒരു ശൂന്യമായ ലിസ്റ്റ് ആരംഭിക്കുക
product_data = []
# ഒന്നിലധികം പേജുകളിൽ നിന്നുള്ള ഡാറ്റ സ്ക്രാപ്പ് ചെയ്യുക
പരിധിയിലുള്ള പേജ്_നമ്പറിന്(1, 6): # സ്ക്രാപ്പിംഗ് പേജുകൾ 1 മുതൽ 5 വരെ
url = base_url + str(page_number)
പ്രതികരണം = requests.get(url)
webpage = response.text
parsed_webpage = html.fromstring(webpage)
# ഉൽപ്പന്ന നാമങ്ങളും വിലകളും വേർതിരിച്ചെടുക്കുക
product_names = parsed_webpage.xpath(“//div[@class='product-name']/text()”)
product_prices = parsed_webpage.xpath(“//span[@class='product-price']/text()”)
# ഉൽപ്പന്ന നാമങ്ങളും വിലകളും സംയോജിപ്പിക്കുക
പേരിന്, സിപ്പിലെ വില(ഉൽപ്പന്നങ്ങളുടെ_പേരുകൾ, ഉൽപ്പന്ന_വിലകൾ):
product_data.append({“പേര്”: പേര്, “വില”: വില})
# എക്സ്ട്രാക്റ്റുചെയ്ത ഡാറ്റ പ്രിന്റുചെയ്യുക
product_data-ലെ ഉൽപ്പന്നത്തിന്:
പ്രിന്റ്(f”ഉൽപ്പന്നത്തിന്റെ പേര്: {product['Name']}, വില: {product['Price']}”)
XML പ്രമാണങ്ങൾ പാഴ്സുചെയ്യുന്നതിനും വെബ് സ്ക്രാപ്പിംഗിനും lxml എങ്ങനെ ഉപയോഗിക്കാമെന്ന് ഈ ഉദാഹരണങ്ങൾ വ്യക്തമാക്കുന്നു. നിങ്ങൾ പ്രവർത്തിക്കുന്ന നിർദ്ദിഷ്ട വെബ്സൈറ്റിനോ XML ഫയലിനോ അനുസരിച്ച് XPath എക്സ്പ്രഷനുകളും URL-കളും ക്രമീകരിക്കാൻ ഓർക്കുക.
അഭിപ്രായങ്ങൾ (0)
ഇവിടെ ഇതുവരെ അഭിപ്രായങ്ങളൊന്നുമില്ല, നിങ്ങൾക്ക് ആദ്യത്തെയാളാകാം!