Hoe de Google Sheets ImportXML-functie te gebruiken om overal gegevens te verzamelen

Video Hoe de Google Sheets ImportXML-functie te gebruiken om overal gegevens te verzamelen

U kunt gegevens van elke webpagina importeren met behulp van de ImportXML-functie van Google Spreadsheets. Hier leest u hoe u de ImportXML-functie op Google Spreadsheets gebruikt.

Door de ImportXML-functie van Google Sheet onder de knie te krijgen, heb je het gevoel dat je al een gecertificeerde Spreadsheets-wizard bezit. ImportXML haalt informatie uit elk XML-veld. Hierdoor kun je de data en metadata die erop gegenereerd zijn overal downloaden.

Basisprincipes van XML en HTML

De XML-opmaaktaal specificeert de gegevenssets op een webpagina. In wezen zal elke set <iets> en </iets> - de bouwstenen van de webbroncode of een bepaalde set gegevens erin zitten. De broncode van het web zal enige tekst bevatten in de <p> aragraph-tag - een alinea, soms met <b> oude - vetgedrukte tekst en mogelijk <a> een link - link (gevolgd door </ a > </b>. </p> </body> om de volledige tag te sluiten).

De Google Sheets ImportXML-functie kan een bepaalde XML-dataset vinden en daarbuiten gegevens kopiëren. Als we in het bovenstaande voorbeeld alle links op de pagina willen krijgen, moeten we de ImportXML-functie vragen om alle informatie in de <a> </a> -tag in te voeren . Als je de hele tekst van een web wilt, kun je beginnen met alles in <body> </body> of elke versie van <p> </p> te nemen en vervolgens de gegevens in latere stadia te verwijderen.

Hoe een lijst met postcode en provincie in de stad op te halen

De tabellen in Wikipedia zijn geweldige ImportXML-oefeningen. Dit artikel zal als voorbeeld dienen voor het downloaden van de volledige postcode in Edmonton, Alberta. Zoek een lijst met Canadese postcodes die met de letter T beginnen. Open die pagina in een nieuw browservenster om te beginnen.

Hoe de Google Sheets ImportXML-functie te gebruiken om overal gegevens te verzamelen

Selecteer een postcode, klik er met de rechtermuisknop op en selecteer Inspecteren om de browsertool te openen om de paginabron te bekijken. U zult zien dat elke paginabroncode in een tag zit (identificeer een cel in de tabel). Daarna importeert het artikel alle TD-tags uit Edmonton erin.

Maak een nieuw, leeg Google-blad. Het artikel bevat alle TD-tag-inhoud, inclusief <span> en een link door de gegevens op te geven waarvoor u de XPath-syntaxis wilt gebruiken. ImportXML neemt de URL en tag die u zoekt als argument om te importeren in Google Spreadsheets.

= importxml ("https://en.wikipedia.org/wiki/List_of_T_postal_codes_of_Canada", "// td")

U krijgt het volgende resultaat:

Hoe de Google Sheets ImportXML-functie te gebruiken om overal gegevens te verzamelen

Als we teruggaan naar de paginabron, zien we de postcode vetgedrukt in de <b> </b> -tag, de plaatsnaam die linkt naar de Wikipedia-artikelen onder <a> </a>. Probeer nu alleen links te krijgen in elke grote stadsbox en verwijder andere links (buurten). Bewerk ze in twee toetsopdrachten, kolom A en B:

= importxml ("https://en.wikipedia.org/wiki/List_of_T_postal_codes_of_Canada", "// td / span / a [1]")

= importxml ("https://en.wikipedia.org/wiki/List_of_T_postal_codes_of_Canada", "// td / b [1]")

Je moet de resultaten een beetje verfijnen:

Hoe de Google Sheets ImportXML-functie te gebruiken om overal gegevens te verzamelen

Deze actie helpt u te begrijpen hoe de syntaxis van de XPath-query werkt: een tag levert alleen de eerste versie van <tag> in de <parent tag>. Daarom geeft td / span / a [1] je de eerste link in <span> bij elke <td>. Evenzo geeft td / b [1] je de eerste vetgedrukte tekst in elke <td> of alleen de postcode in dit geval.

Het mooie is dat je in een functie twee queries kunt uitvoeren. Daarom combineert het artikel twee verzoeken met een | symbool in het midden:

= importxml ("https://en.wikipedia.org/wiki/List_of_T_postal_codes_of_Canada", "// td / span / a [1] | // td / b [1]")

U krijgt echter niet dezelfde eerdere resultaten. Het zal het hele verzoek gecombineerd afwisselen in een lange lijst, in plaats van twee kolommen. Het heeft veel voordelen, maar is in dit artikel niet nodig.

Hoe de Google Sheets ImportXML-functie te gebruiken om overal gegevens te verzamelen

Om de postcode te selecteren in de vakken met de link 'Edmonton'. We zullen deze code gebruiken:

= importxml ("https://en.wikipedia.org/wiki/List_of_T_postal_codes_of_Canada", "// td [span / a = 'Edmonton'] / b [1]")

Zet de "zoek" -tekst die in aanmerking komt om de resultaten te verkleinen tussen vierkante haken, zonder dat dit invloed heeft op de manier waarop de resultaten worden verkregen.

Hoe de Google Sheets ImportXML-functie te gebruiken om overal gegevens te verzamelen

Nu naar namen van nabijgelegen gebieden. Schrijf de juiste functie importXML in de volgende kolom en haal de volgende tekst op uit "Edmonton".

Het artikel neemt de volledige inhoud van de reeks [1] en gebruikt haakjes en dradenkruis om de inhoud te verdelen, waarbij "Edmonton" in de eerste kolom en de buurtnaam in de volgende kolom wordt geplaatst. Vervolgens kunnen we de postcode combineren met de bijbehorende naam:

= importxml ("https://en.wikipedia.org/wiki/List_of_T_postal_codes_of_Canada", "// td [span / a = 'Edmonton'] / span [1]")

Gebruik vervolgens de functie Splitsen en voeg enkele van de volgende kolommen samen om de gegevens die worden verwerkt te splitsen en te groeperen:

= SPLIT (aaneengeschakeld (B2: J2), "(/)")

Ten slotte is hier de resultatentabel met de nodige informatie:

Hoe de Google Sheets ImportXML-functie te gebruiken om overal gegevens te verzamelen

Hoe e-mailadressen automatisch van internet te kopiëren

Hoe de Google Sheets ImportXML-functie te gebruiken om overal gegevens te verzamelen

In dit artikel wordt uitgelegd hoe u alle e-mails van medewerkers over Over | kunt ophalen Zapier. Als u naar de broncode kijkt, ziet u dat het e-mailadres van elk lid in het veld class = "email" staat. Wanneer u een tagkenmerk wilt specificeren, gebruikt u de Google Sheets ImportXML-functie als volgt:

= importxml ("https://zapier.com/about//", "// span [@ class = 'email']")

Regex gebruiken om e-mailadressen van internet te importeren in Google Spreadsheets.

Om Zapier-adressen te krijgen met behulp van Regex's "power", voeren we het <span> commando in in plaats van naar de klas te zoeken. Nu zullen we deze taak in twee stappen uitvoeren: bel de informatie van de Zapier-pagina in de eerste kolom en sorteer de e-mail vervolgens in de tweede kolom:

= importxml ("https://zapier.com/about//", "// span")

= regexextract (A1, "[a-zA-Z0-9 _ \. \ + -] + @ [a-zA-Z0-9 - \.] + \. [a-zA-Z0-9 -] {2, 15} ")

Eindelijk hebben we deze tabel:

Hoe de Google Sheets ImportXML-functie te gebruiken om overal gegevens te verzamelen

Onthoud dat ImportXML alle kolommen en rijen zelf invult, afhankelijk van de gevonden gegevens. De regex-query moet worden ingevuld in elke cel waarvan u resultaten wilt krijgen. Om het allemaal samen te voegen , hoeft u alleen de opdracht Regexextract te gebruiken, wat een matrixconstante-formule is:

= ArrayFormula (IFERROR (REGEXEXTRACT (IMPORTXML ("https://zapier.com/about//", "// span"), "[a-zA-Z0-9 _ \. \ + -] + @ [a- zA-Z0-9 - \.] + \. [a-zA-Z0-9 -] {2,15} "))))

En hier is het resultaat:

Hoe de Google Sheets ImportXML-functie te gebruiken om overal gegevens te verzamelen

Ik hoop dat het artikel nuttig voor je is!

Sign up and earn $1000 a day ⋙

Hoe profielfotos in Telegram te verwijderen

Hoe profielfotos in Telegram te verwijderen

Als je al een tijdje actief bent op Telegram, wil je misschien je profielfoto's wijzigen. Oude profielfoto's worden echter niet automatisch verwijderd

Hoe u het chatfilter in Twitch kunt uitschakelen

Hoe u het chatfilter in Twitch kunt uitschakelen

Het Twitch-platform heeft de optie om je te beschermen tegen schadelijk, aanstootgevend en beledigend taalgebruik in de chat. Voor jongere gebruikers is het raadzaam om dit te hebben

Hoe u kunt zien wie uw Google-document heeft bekeken

Hoe u kunt zien wie uw Google-document heeft bekeken

https://www.youtube.com/watch?v=Pt48wfYtkHE Google Docs is een uitstekende tool voor samenwerking, omdat meerdere mensen één document kunnen bewerken en eraan kunnen werken

Hoe u een vulkleur gebruikt in Procreate

Hoe u een vulkleur gebruikt in Procreate

Hoewel er veel digitale kunsttools zijn, valt Procreate om een ​​reden op. Het is ontworpen om originele kunst te tekenen met een stylus en een tablet, waardoor je een

Hoe Facebook-marktplaatsvermeldingen voor vrienden te verbergen

Hoe Facebook-marktplaatsvermeldingen voor vrienden te verbergen

Er zijn momenten waarop je niet wilt dat je Facebook-vrienden weten wat je online plaatst. Misschien verkoop je iets dat een van je vrienden heeft gegeven

Hoe een achtergrond in IMovie te verwijderen

Hoe een achtergrond in IMovie te verwijderen

Wil je een film maken van jezelf terwijl je in Parijs staat, maar ben je nog nooit in Frankrijk geweest? Je kunt dit in iMovie doen door de achtergrond te verwijderen en een nieuwe in te voegen

Hoe de tekstgrootte in Snapchat te wijzigen

Hoe de tekstgrootte in Snapchat te wijzigen

Het is je misschien opgevallen dat je tekstgrootte is veranderd in de berichten van Snapchat. De reden hiervoor is dat de app zich heeft aangepast aan de instellingen van je telefoon. Gelukkig, als

Hoe u de nieuwste Fire-tablet in de Amazon Store kunt vinden

Hoe u de nieuwste Fire-tablet in de Amazon Store kunt vinden

In deze handleiding leest u hoe u de nieuwste Fire-tablet in de Amazons Store kunt vinden en bestellen.

Hoe u geld kunt verdienen met TikTok

Hoe u geld kunt verdienen met TikTok

Als je wilt weten welk sociaal platform het beste is om inkomsten te genereren, zouden de gebruikersbasisnummers van TikTok je alles moeten vertellen wat je moet weten.

Hoe je de abonneerknop in Snapchat kunt krijgen en onderhouden

Hoe je de abonneerknop in Snapchat kunt krijgen en onderhouden

https://www.youtube.com/watch?v=Y9EoUvRpZ2s Zodra je een officiële Snapchat-maker wordt, krijg je de knop Abonneren naast je naam. Wat heb je nodig

Hoe u uw 3D Bitmoji kunt verwijderen en voorgoed kunt verwijderen

Hoe u uw 3D Bitmoji kunt verwijderen en voorgoed kunt verwijderen

3D Bitmoji is een innovatieve functie van Snapchat waarmee gebruikers een unieke digitale aanwezigheid kunnen creëren die hun persoonlijkheid nauwkeurig weergeeft.

Hoe u een timer in Google Presentaties invoegt

Hoe u een timer in Google Presentaties invoegt

Tijdens een Google Slide-presentatie moet u bijhouden hoe lang u op één dia blijft, of uw publiek de kans geven om deel te nemen aan discussies of eventuele vragen te beantwoorden.

OnePlus 5 Review: de OnePlus 5T is nog beter zonder prijsverhoging

OnePlus 5 Review: de OnePlus 5T is nog beter zonder prijsverhoging

De OnePlus 5 was een van de beste telefoons van 2017. Toen arriveerde de OnePlus 5T en verbeterde deze op een aantal bescheiden maar belangrijke manieren, zonder toevoegingen.

Hoe u contant geld kunt toevoegen in de Cash-app

Hoe u contant geld kunt toevoegen in de Cash-app

In de Cash App kun je mensen geld sturen, investeren in bedrijfsaandelen of aandelen, crypto verhandelen en je rekeningen betalen. U moet echter geld aan uw contant geld toevoegen

Hoe u een vorm uitknipt in Illustrator

Hoe u een vorm uitknipt in Illustrator

U kunt verschillende methoden gebruiken om vormen uit te snijden in Adobe Illustrator. Dit komt omdat veel van de objecten niet op dezelfde manier zijn gemaakt. Helaas,

Telegram YouTube-downloaders

Telegram YouTube-downloaders

Als je video's wilt downloaden en wilt genieten van advertentievrije inhoud op YouTube, moet je een premiumabonnee zijn. Dit is waar handige Telegram-bots binnenkomen.

Hoe u kunt repareren dat Outlook geen e-mails verzendt

Hoe u kunt repareren dat Outlook geen e-mails verzendt

Wanneer u een e-mail verzendt in Outlook, verwacht u dat deze onmiddellijk wordt afgeleverd. Net als andere e-mailplatforms is Outlook echter gevoelig voor storingen en

Hoe u het aanraakscherm op een Chromebook uitschakelt

Hoe u het aanraakscherm op een Chromebook uitschakelt

https://www.youtube.com/watch?v=13ei1TYS8uk Chromebooks zijn briljante apparaten, als je geen laptop nodig hebt die veeleisende programma's aankan. Als je binnen bent

Kan Virtual Reality ons ooit verrassen zoals de vroege cinema dat deed?

Kan Virtual Reality ons ooit verrassen zoals de vroege cinema dat deed?

Het verhaal gaat dat in 1896, toen de gebroeders Lumière voor het eerst een trein lieten zien die station La Ciotat binnenreed, het publiek in de bioscoop in chaos uitbarstte.

Hoe u grote bestellingen kunt krijgen met DoorDash

Hoe u grote bestellingen kunt krijgen met DoorDash

Als je een goed verdienende dasher wilt zijn, kun je niet zomaar de app downloaden en meteen beginnen met geld verdienen. Het is niet zo eenvoudig als het doen van leveringen.