Innehåll
Uppgiften att överföra data från ett kalkylblad i en PDF-fil till ett Microsoft Excel-ark är alltid "kul". Speciellt om du inte har dyra igenkänningsprogram som FineReader eller något liknande. Direktkopiering leder vanligtvis inte till något bra, eftersom. efter att ha klistrat in den kopierade informationen på arket kommer de troligen att "hålla ihop" till en kolumn. Så de måste sedan noggrant separeras med hjälp av ett verktyg Text efter kolumner från fliken Data (Data – text till kolumner).
Och självklart är kopiering endast möjlig för de PDF-filer där det finns ett textlager, dvs med ett dokument som just har skannats från papper till PDF, kommer detta i princip inte att fungera.
Men det är inte så tråkigt, egentligen 🙂
Om du har Office 2013 eller 2016, är det på ett par minuter, utan ytterligare program, fullt möjligt att överföra data från PDF till Microsoft Excel. Och Word and Power Query kommer att hjälpa oss med detta.
Låt oss till exempel ta den här PDF-rapporten med en massa text, formler och tabeller från webbplatsen för den ekonomiska kommissionen för Europa:
... och försök dra ut det i Excel, säg den första tabellen:
Nu går vi!
Steg 1. Öppna PDF i Word
Av någon anledning är det få som vet, men sedan 2013 har Microsoft Word lärt sig att öppna och känna igen PDF-filer (även skannade, det vill säga utan textlager!). Detta görs på ett helt standard sätt: öppna Word, klicka Arkiv – Öppna (Fil — Öppna) och ange PDF-formatet i rullgardinsmenyn i det nedre högra hörnet av fönstret.
Välj sedan den PDF-fil vi behöver och klicka Öppen (Öppna). Word berättar för oss att det kommer att köra OCR på detta dokument till text:
Vi är överens och om några sekunder kommer vi att se vår PDF-fil öppen för redigering redan i Word:
Naturligtvis kommer designen, stilarna, typsnitten, sidhuvuden och sidfötter, etc. delvis att flyga bort från dokumentet, men detta är inte viktigt för oss – vi behöver bara data från tabeller. I princip, i detta skede, är det redan frestande att helt enkelt kopiera tabellen från det erkända dokumentet till Word och helt enkelt klistra in den i Excel. Ibland fungerar det, men oftare leder det till alla möjliga dataförvrängningar – till exempel kan siffror förvandlas till datum eller förbli text, som i vårt fall, pga. PDF använder icke-separatorer:
Så låt oss inte skära hörn, utan göra allt lite mer komplicerat, men rätt.
Steg 2: Spara dokumentet som en webbsida
För att sedan ladda in mottagen data i Excel (via Power Query) behöver vårt dokument i Word sparas i webbsidesformatet – detta format är i det här fallet en slags gemensam nämnare mellan Word och Excel.
För att göra detta, gå till menyn Arkiv – Spara som (Arkiv - Spara som) eller tryck på knappen F12 på tangentbordet och i fönstret som öppnas väljer du filtyp Webbsida i en fil (Webbsida — en fil):
Efter att du har sparat bör du få en fil med tillägget mhtml (om du ser filtillägg i Utforskaren).
Steg 3. Ladda upp filen till Excel via Power Query
Du kan öppna den skapade MHTML-filen i Excel direkt, men då får vi, för det första, allt innehåll i PDF-filen på en gång, tillsammans med text och en massa onödiga tabeller, och för det andra kommer vi återigen att förlora data på grund av felaktigheter separatorer. Därför kommer vi att göra importen till Excel via Power Query-tillägget. Detta är ett helt gratis tillägg med vilket du kan ladda upp data till Excel från nästan vilken källa som helst (filer, mappar, databaser, ERP-system) och sedan transformera mottagna data på alla möjliga sätt, vilket ger den önskad form.
Om du har Excel 2010-2013 kan du ladda ner Power Query från den officiella Microsoft-webbplatsen - efter installationen kommer du att se en flik Strömfråga. Om du har Excel 2016 eller senare behöver du inte ladda ner något – all funktionalitet är redan inbyggd i Excel som standard och finns på fliken Data (Datum) i grupp Ladda ner och konvertera (Hämta och förvandla).
Så vi går antingen till fliken Data, eller på fliken Strömfråga och välj ett lag För att få data or Skapa fråga – Från fil – Från XML. För att inte bara visa XML-filer, ändra filtren i rullgardinsmenyn i det nedre högra hörnet av fönstret till Alla filer (Alla filer) och ange vår MHTML-fil:
Observera att importen inte kommer att slutföras framgångsrikt, eftersom. Power Query förväntar sig XML från oss, men vi har faktiskt ett HTML-format. Därför, i nästa fönster som visas, måste du högerklicka på filen som är obegriplig för Power Query och ange dess format:
Efter det kommer filen att kännas igen korrekt och vi kommer att se en lista över alla tabeller som den innehåller:
Du kan se innehållet i tabellerna genom att klicka med vänster musknapp i den vita bakgrunden (inte i ordet Tabell!) i cellerna i kolumnen Data.
När önskad tabell är definierad, klicka på det gröna ordet Bord – och du "faller igenom" i dess innehåll:
Det återstår att göra några enkla steg för att "kamma" dess innehåll, nämligen:
- ta bort onödiga kolumner (högerklicka på kolumnrubriken - AVLÄGSNA)
- ersätt punkter med kommatecken (välj kolumner, högerklicka – Ersätter värden)
- ta bort likhetstecken i rubriken (välj kolumner, högerklicka – Ersätter värden)
- ta bort den övre raden (Hem – Ta bort rader – Ta bort översta rader)
- ta bort tomma rader (Hem – Ta bort rader – Ta bort tomma rader)
- höj den första raden till tabellhuvudet (Hem – Använd första raden som rubriker)
- filtrera bort onödiga data med hjälp av ett filter
När bordet har återställts till sin normala form kan det laddas av på arket med kommandot stäng och ladda ner (Stäng & ladda) on Den huvudsakliga flik. Och vi kommer att få sådan skönhet som vi redan kan arbeta med:
- Omvandla en kolumn till en tabell med Power Query
- Dela upp klibbig text i kolumner