Bild aus PDF mit itextsharp extrahieren

Question

Bild aus PDF mit itextsharp extrahieren

Gefragt el 10 de Kann, 2011: Wann wurde die Frage gestellt
44573 Ansichten: Anzahl der Besuche der Frage
3 Antworten: Anzahl der Fragenantworten
Gelöst: Aktueller Status der Frage

Ich versuche, alle Bilder aus einem PDF-Dokument mit itextsharp zu extrahieren, aber ich kann diese eine Hürde nicht überwinden.

Der Fehler tritt in der folgenden Zeile auf System.Drawing.Image ImgPDF = System.Drawing.Image.FromStream(MS); mit der Fehlermeldung "Parameter ist nicht gültig".

Ich glaube, es funktioniert, wenn das Bild ein Bitmap ist, aber nicht in einem anderen Format.

Ich habe den folgenden Code - entschuldigen Sie die Länge;

    private void Form1_Load(object sender, EventArgs e)
    {
        FileStream fs = File.OpenRead(@"reader.pdf");
        byte[] data = new byte[fs.Length];
        fs.Read(data, 0, (int)fs.Length);

        List<System.Drawing.Image> ImgList = new List<System.Drawing.Image>();

        iTextSharp.text.pdf.RandomAccessFileOrArray RAFObj = null;
        iTextSharp.text.pdf.PdfReader PDFReaderObj = null;
        iTextSharp.text.pdf.PdfObject PDFObj = null;
        iTextSharp.text.pdf.PdfStream PDFStremObj = null;

        try
        {
            RAFObj = new iTextSharp.text.pdf.RandomAccessFileOrArray(data);
            PDFReaderObj = new iTextSharp.text.pdf.PdfReader(RAFObj, null);

            for (int i = 0; i <= PDFReaderObj.XrefSize - 1; i++)
            {
                PDFObj = PDFReaderObj.GetPdfObject(i);

                if ((PDFObj != null) && PDFObj.IsStream())
                {
                    PDFStremObj = (iTextSharp.text.pdf.PdfStream)PDFObj;
                    iTextSharp.text.pdf.PdfObject subtype = PDFStremObj.Get(iTextSharp.text.pdf.PdfName.SUBTYPE);

                    if ((subtype != null) && subtype.ToString() == iTextSharp.text.pdf.PdfName.IMAGE.ToString())
                    {
                        byte[] bytes = iTextSharp.text.pdf.PdfReader.GetStreamBytesRaw((iTextSharp.text.pdf.PRStream)PDFStremObj);

                        if ((bytes != null))
                        {
                            try
                            {
                                System.IO.MemoryStream MS = new System.IO.MemoryStream(bytes);

                                MS.Position = 0;
                                System.Drawing.Image ImgPDF = System.Drawing.Image.FromStream(MS);

                                ImgList.Add(ImgPDF);

                            }
                            catch (Exception)
                            {
                            }
                        }
                    }
                }
            }
            PDFReaderObj.Close();
        }
        catch (Exception ex)
        {
            throw new Exception(ex.Message);
        }

    } //Form1_Load

Gefragt el 10 de Kann, 2011 von griegs

0 Stimmen

Vielleicht liegt das Bild in einem nicht unterstützten Format vor, und Sie können wirklich nicht viel tun, außer das Bild zu ignorieren und weiterzumachen...

Kommentiert el 11 de November, 2012 von Zain Ali

0 Stimmen

stackoverflow.com/a/7995733/1266873

Kommentiert el 19 de Oktober, 2017 von Koray

Answer 1

3 Antworten

Answer 2

1voto

rock_walker Punkte 415

Ich habe eine Bibliothek auf Github hinzugefügt, die Bilder in PDF extrahiert und komprimiert.

Könnte nützlich sein, wenn Sie anfangen, mit der sehr leistungsfähigen Bibliothek ITextSharp zu spielen.

Hier der Link: https://github.com/rock-walker/PdfCompression

Beantwortet el 31 de Oktober, 2017 von rock_walker (415 Punkte )

2 Stimmen

Auch wenn dieser Link die Frage beantworten kann, ist es besser, die wesentlichen Teile der Antwort hier aufzuführen und den Link als Referenz anzugeben. Antworten, die nur einen Link enthalten, können ungültig werden, wenn sich die verlinkte Seite ändert. - Aus der Rezension

Kommentiert el 31 de Oktober, 2017 von Jolta

0 Stimmen

Ich habe 2 Monate lang an einer Aufgabe zur PDF-Komprimierung gearbeitet (hauptsächlich Bilder extrahieren und komprimieren). Und überall in der SO, und andere Ressourcen gab es keine konsolidierten Beispiel, wie man mit den Dingen, wie itextsharp, Extrahieren von Bildern, Komprimierung in PDF umgehen. Ich habe eine Menge kleiner Daten in SO zusammengestellt, um eine endgültige funktionierende Bibliothek zu erhalten. Ich glaube wirklich, dass mein End-to-End-Beispiel als Startspielplatz für diejenigen betrachtet werden kann, die das Gleiche tun wollen.

Kommentiert el 1 de November, 2017 von rock_walker

0 Stimmen

Ich glaube nicht, dass mit Ihrer Bibliothek etwas nicht in Ordnung ist! Es ist nur so, dass die Politik von Stack Overflow ausdrücklich von Antworten abrät, die nur ein Link zu einer externen Seite sind. Der Zweck von SO ist, dass die Leute lernen sollen, nicht nur, dass sie eine Lösung für ihr unmittelbares Problem finden.

Kommentiert el 1 de November, 2017 von Jolta

Anzeigen 1 weitere Kommentare

Answer 3

0voto

Silent Sojourner Punkte 146

Das funktioniert bei mir, und ich denke, es ist eine einfache Lösung:

Schreiben Sie einen benutzerdefinierten RenderListener und implementieren Sie dessen RenderImage-Methode, etwa wie folgt

    public void RenderImage(ImageRenderInfo info)
    {
        PdfImageObject image = info.GetImage();
        Parser.Matrix matrix = info.GetImageCTM();
        var fileType = image.GetFileType();
        ImageFormat format;
        switch (fileType)
        {//you may add more types here
            case "jpg":
            case "jpeg":
                format = ImageFormat.Jpeg;
                break;
            case "pnt":
                format = ImageFormat.Png;
                break;
            case "bmp":
                format = ImageFormat.Bmp;
                break;
            case "tiff":
                format = ImageFormat.Tiff;
                break;
            case "gif":
                format = ImageFormat.Gif;
                break;
            default:
                format = ImageFormat.Jpeg;
                break;
        }

        var pic = image.GetDrawingImage();
        var x = matrix[Parser.Matrix.I31];
        var y = matrix[Parser.Matrix.I32];
        var width = matrix[Parser.Matrix.I11];
        var height = matrix[Parser.Matrix.I22];
        if (x < <some value> && y < <some value>)
        {
            return;//ignore these images
        }

        pic.Save(<path and name>, format);
}

Beantwortet el 6 de Juli, 2017 von Silent Sojourner (146 Punkte )

Answer 4

-1voto

fulvio Punkte 25332

Ich habe diese Bibliothek in der Vergangenheit ohne Probleme verwendet.

http://www.winnovative-software.com/PdfImgExtractor.aspx

private void btnExtractImages_Click(object sender, EventArgs e)
{
    if (pdfFileTextBox.Text.Trim().Equals(String.Empty))
    {
        MessageBox.Show("Please choose a source PDF file", "Choose PDF file", MessageBoxButtons.OK);
        return;
    }

    // the source pdf file
    string pdfFileName = pdfFileTextBox.Text.Trim();

    // start page number
    int startPageNumber = int.Parse(textBoxStartPage.Text.Trim());
    // end page number
    // when it is 0 the extraction will continue up to the end of document
    int endPageNumber = 0;
    if (textBoxEndPage.Text.Trim() != String.Empty)
        endPageNumber = int.Parse(textBoxEndPage.Text.Trim());

    // create the PDF images extractor object
    PdfImagesExtractor pdfImagesExtractor = new PdfImagesExtractor();

    pdfImagesExtractor.LicenseKey = "31FAUEJHUEBQRl5AUENBXkFCXklJSUlQQA==";

    // the demo output directory
    string outputDirectory = Path.Combine(Application.StartupPath, @"DemoFiles\Output");

    Cursor = Cursors.WaitCursor;

    // set the handler to be called when an image was extracted
    pdfImagesExtractor.ImageExtractedEvent += pdfImagesExtractor_ImageExtractedEvent;

    try
    {
        // start images counting
        imageIndex = 0;

        // call the images extractor to raise the ImageExtractedEvent event when an images is extracted from a PDF page
        // the pdfImagesExtractor_ImageExtractedEvent handler below will be executed for each extracted image
        pdfImagesExtractor.ExtractImagesInEvent(pdfFileName, startPageNumber, endPageNumber);

        // Alternatively you can use the ExtractImages() and ExtractImagesToFile() methods
        // to extracted the images from a PDF document in memory or to image files in a directory

        // uncomment the line below to extract the images to an array of ExtractedImage objects
        //ExtractedImage[] pdfPageImages = pdfImagesExtractor.ExtractImages(pdfFileName, startPageNumber, endPageNumber);

        // uncomment the lines below to extract the images to image files in a directory
        //string outputDirectory = System.IO.Path.Combine(Application.StartupPath, @"DemoFiles\Output");
        //pdfImagesExtractor.ExtractImagesToFile(pdfFileName, startPageNumber, endPageNumber, outputDirectory, "pdfimage");
    }
    catch (Exception ex)
    {
        // The extraction failed
        MessageBox.Show(String.Format("An error occurred. {0}", ex.Message), "Error");
        return;
    }
    finally
    {
        // uninstall the event handler
        pdfImagesExtractor.ImageExtractedEvent -= pdfImagesExtractor_ImageExtractedEvent;

        Cursor = Cursors.Arrow;
    }

    try
    {
        System.Diagnostics.Process.Start(outputDirectory);
    }
    catch (Exception ex)
    {
        MessageBox.Show(string.Format("Cannot open output folder. {0}", ex.Message));
        return;
    }
}

/// <summary>
/// The ImageExtractedEvent event handler called after an image was extracted from a PDF page.
/// The event is raised when the ExtractImagesInEvent() method is used
/// </summary>
/// <param name="args">The handler argument containing the extracted image and the PDF page number</param>
void pdfImagesExtractor_ImageExtractedEvent(ImageExtractedEventArgs args)
{
    // get the image object and page number from even handler argument
    Image pdfPageImageObj = args.ExtractedImage.ImageObject;
    int pageNumber = args.ExtractedImage.PageNumber;

    // save the extracted image to a PNG file
    string outputPageImage = Path.Combine(Application.StartupPath, @"DemoFiles\Output", 
        "pdfimage_" + pageNumber.ToString() + "_" + imageIndex++ + ".png");
    pdfPageImageObj.Save(outputPageImage, ImageFormat.Png);

    args.ExtractedImage.Dispose();
}

Beantwortet el 12 de Kann, 2011 von fulvio (25332 Punkte )

0 Stimmen

Eigentlich ist es die, die wir verwenden, ja. Funktioniert ziemlich gut für die meisten Dinge.

Kommentiert el 12 de Kann, 2011 von griegs

0 Stimmen

@MohamedSakherSawan Okay, das ist schön.

Kommentiert el 22 de Kann, 2013 von fulvio

Bild aus PDF mit itextsharp extrahieren

Antworten

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by:

Bild aus PDF mit itextsharp extrahieren

Antworten

Verwandte Fragen

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by: