Importera data från PDF till Excel via Power Query

Uppgiften att överföra data från ett kalkylblad i en PDF-fil till ett Microsoft Excel-ark är alltid "kul". Speciellt om du inte har dyra igenkänningsprogram som FineReader eller något liknande. Direktkopiering leder vanligtvis inte till något bra, eftersom. efter att ha klistrat in den kopierade informationen på arket kommer de troligen att "hålla ihop" till en kolumn. Så de måste sedan noggrant separeras med hjälp av ett verktyg Text efter kolumner från fliken Data (Data – text till kolumner).

Och självklart är kopiering endast möjlig för de PDF-filer där det finns ett textlager, dvs med ett dokument som just har skannats från papper till PDF, kommer detta i princip inte att fungera.

Men det är inte så tråkigt, egentligen 🙂

Om du har Office 2013 eller 2016, är det på ett par minuter, utan ytterligare program, fullt möjligt att överföra data från PDF till Microsoft Excel. Och Word and Power Query kommer att hjälpa oss med detta.

Låt oss till exempel ta den här PDF-rapporten med en massa text, formler och tabeller från webbplatsen för den ekonomiska kommissionen för Europa:

Importera data från PDF till Excel via Power Query

... och försök dra ut det i Excel, säg den första tabellen:

Importera data från PDF till Excel via Power Query

Nu går vi!

Steg 1. Öppna PDF i Word

Av någon anledning är det få som vet, men sedan 2013 har Microsoft Word lärt sig att öppna och känna igen PDF-filer (även skannade, det vill säga utan textlager!). Detta görs på ett helt standard sätt: öppna Word, klicka Arkiv – Öppna (Fil — Öppna) och ange PDF-formatet i rullgardinsmenyn i det nedre högra hörnet av fönstret.

Välj sedan den PDF-fil vi behöver och klicka Öppen (Öppna). Word berättar för oss att det kommer att köra OCR på detta dokument till text:

Importera data från PDF till Excel via Power Query

Vi är överens och om några sekunder kommer vi att se vår PDF-fil öppen för redigering redan i Word:

Importera data från PDF till Excel via Power Query

Naturligtvis kommer designen, stilarna, typsnitten, sidhuvuden och sidfötter, etc. delvis att flyga bort från dokumentet, men detta är inte viktigt för oss – vi behöver bara data från tabeller. I princip, i detta skede, är det redan frestande att helt enkelt kopiera tabellen från det erkända dokumentet till Word och helt enkelt klistra in den i Excel. Ibland fungerar det, men oftare leder det till alla möjliga dataförvrängningar – till exempel kan siffror förvandlas till datum eller förbli text, som i vårt fall, pga. PDF använder icke-separatorer:

Importera data från PDF till Excel via Power Query

Så låt oss inte skära hörn, utan göra allt lite mer komplicerat, men rätt.

Steg 2: Spara dokumentet som en webbsida

För att sedan ladda in mottagen data i Excel (via Power Query) behöver vårt dokument i Word sparas i webbsidesformatet – detta format är i det här fallet en slags gemensam nämnare mellan Word och Excel.

För att göra detta, gå till menyn Arkiv – Spara som (Arkiv - Spara som) eller tryck på knappen F12 på tangentbordet och i fönstret som öppnas väljer du filtyp Webbsida i en fil (Webbsida — en fil):

Importera data från PDF till Excel via Power Query

Efter att du har sparat bör du få en fil med tillägget mhtml (om du ser filtillägg i Utforskaren).

Steg 3. Ladda upp filen till Excel via Power Query

Du kan öppna den skapade MHTML-filen i Excel direkt, men då får vi, för det första, allt innehåll i PDF-filen på en gång, tillsammans med text och en massa onödiga tabeller, och för det andra kommer vi återigen att förlora data på grund av felaktigheter separatorer. Därför kommer vi att göra importen till Excel via Power Query-tillägget. Detta är ett helt gratis tillägg med vilket du kan ladda upp data till Excel från nästan vilken källa som helst (filer, mappar, databaser, ERP-system) och sedan transformera mottagna data på alla möjliga sätt, vilket ger den önskad form.

Om du har Excel 2010-2013 kan du ladda ner Power Query från den officiella Microsoft-webbplatsen - efter installationen kommer du att se en flik Strömfråga. Om du har Excel 2016 eller senare behöver du inte ladda ner något – all funktionalitet är redan inbyggd i Excel som standard och finns på fliken Data (Datum) i grupp Ladda ner och konvertera (Hämta och förvandla).

Så vi går antingen till fliken Data, eller på fliken Strömfråga och välj ett lag För att få data or Skapa fråga – Från fil – Från XML. För att inte bara visa XML-filer, ändra filtren i rullgardinsmenyn i det nedre högra hörnet av fönstret till Alla filer (Alla filer) och ange vår MHTML-fil:

Importera data från PDF till Excel via Power Query

Observera att importen inte kommer att slutföras framgångsrikt, eftersom. Power Query förväntar sig XML från oss, men vi har faktiskt ett HTML-format. Därför, i nästa fönster som visas, måste du högerklicka på filen som är obegriplig för Power Query och ange dess format:

Importera data från PDF till Excel via Power Query

Efter det kommer filen att kännas igen korrekt och vi kommer att se en lista över alla tabeller som den innehåller:

Importera data från PDF till Excel via Power Query

Du kan se innehållet i tabellerna genom att klicka med vänster musknapp i den vita bakgrunden (inte i ordet Tabell!) i cellerna i kolumnen Data.

När önskad tabell är definierad, klicka på det gröna ordet Bord – och du "faller igenom" i dess innehåll:

Importera data från PDF till Excel via Power Query

Det återstår att göra några enkla steg för att "kamma" dess innehåll, nämligen:

  1. ta bort onödiga kolumner (högerklicka på kolumnrubriken - AVLÄGSNA)
  2. ersätt punkter med kommatecken (välj kolumner, högerklicka – Ersätter värden)
  3. ta bort likhetstecken i rubriken (välj kolumner, högerklicka – Ersätter värden)
  4. ta bort den övre raden (Hem – Ta bort rader – Ta bort översta rader)
  5. ta bort tomma rader (Hem – Ta bort rader – Ta bort tomma rader)
  6. höj den första raden till tabellhuvudet (Hem – Använd första raden som rubriker)
  7. filtrera bort onödiga data med hjälp av ett filter

När bordet har återställts till sin normala form kan det laddas av på arket med kommandot stäng och ladda ner (Stäng & ladda) on Den huvudsakliga flik. Och vi kommer att få sådan skönhet som vi redan kan arbeta med:

Importera data från PDF till Excel via Power Query

  • Omvandla en kolumn till en tabell med Power Query
  • Dela upp klibbig text i kolumner

Kommentera uppropet