Konwertuj pliki PDF na inne formaty dokumentów

Aspose.Words może załadować nawet tak złożony format jak PDF. Otwiera to nowe możliwości: możliwa jest konwersja plików PDF do programu Word lub innych formatów, które zapewniają użytkownikom daleko idącą przewagę w rozwiązywaniu wielu stosowanych problemów.

Warunki wstępne

  • Dodano odniesienie do pakietu Aspose.Words LUB do Aspose.Words.Pdf2Word.dll.
  • Przynajmniej .NET Framework 4.6.1 lub .NET Standard 2.0. Cele takie jak .NET Core 2.x lub 3.0, .NET 5 i Xamarin są również obsługiwane dzięki zgodności z .NET Standard.

Konwertuj pliki PDF na różne formaty

Najpopularniejszą konwersją z formatu PDF jest konwersja do formatów Microsoft Word takich jak DOCX, DOC, a także formatów graficznych takich jak JPG czy PNG. W związku z tym konwersja dokumentu z jednego formatu na inny przebiega w znany sposób.

Poniższy przykład kodu pokazuje, jak przekonwertować dokument z formatu PDF na DOCX:

Określ opcje ładowania podczas importowania pliku PDF

Aspose.Words udostępnia klasę PdfLoadOptions, która umożliwia bardziej precyzyjną kontrolę nad sposobem ładowania dokumentów PDF.

Większość właściwości dziedziczy lub przeciąża właściwości, które już istnieją w klasie LoadOptions. Oprócz nich dla formatu PDF określono szereg właściwości. Można na przykład użyć właściwości PageCount i PageIndex do zdefiniowania zakresu stron ładowanych z dokumentu PDF oraz właściwości SkipPdfImages do kontrolowania, czy obrazy powinny być pomijane podczas ładowania pliku PDF. Kolejnym obsługiwanym parametrem jest Password, który należy podać w przypadku pliku dokumenty chronione hasłem.

Obsługiwana zawartość PDF

Wtyczka PDF2Word obsługuje obecnie następujące typy danych:

  • Tekst akapitów
  • Obrazy
  • Stoły
  • Listy
  • Nagłówki i stopki
  • Przypisy
  • Numery stron
  • Tekst pisany od prawej do lewej (z pewnymi ograniczeniami)
  • Pliki PDF z możliwością przeszukiwania (obrazy z przodu zostaną usunięte na rzecz tekstu w tle)

Przyszłe funkcje

Niektóre funkcje są wciąż na wczesnym etapie rozwoju lub są uwzględnione w planie rozwoju:

  • Spis treści
  • OCR dla plików PDF z możliwością przeszukiwania i bez możliwości przeszukiwania
  • Status postępu
  • Tekst wielokolumnowy
  • Wzory matematyczne
  • Więcej pól automatycznych (oprócz PAGE i NUMPAGES)

Wyjątki ładowania plików PDF

Podczas konwersji dokumentu PDF może wystąpić jeden z następujących wyjątków:

Wyjątek Opis
FileLoadException Z jakiegoś powodu nie można przetworzyć pliku PDF.
DrmProtectedFileException Plik PDF jest chroniony przez Adobe DRM i nie może być dekodowany przez Pdf2Word
PasswordProtectedFileException W przypadku pliku PDF chronionego hasłem należy podać prawidłowe hasło

Zobacz też