استخراج PDF در C#

نحوه استخراج متن و تصاویر از PDF با استفاده از کتابخانه .NET

محبوب ترین اقدام با پارسر

نحوه استخراج PDF با کتابخانه .NET

آیا شما نیاز به استخراج PDF دارید؟ اصلاح برنامه ای اسناد PDF بخش مهمی از گردش کار دیجیتال مدرن است. با استفاده از کتابخانه های دات نت مانند Aspose.PDF، توسعه دهندگان می توانند متن را از PDF استخراج کنند یا تصاویر را از PDF استخراج کنند. این کتابخانه ها راه حل های مستقلی هستند که به نرم افزارهای دیگر متکی نیستند و برای استفاده تجاری آماده هستند. آنها تمام نیازهای احتمالی توسعه دهندگان حرفه ای C# را پوشش می دهند.

  • استخراج داده های PDF: متون، تصاویر، فرم ها، زمینه ها و غیره
  • استخراج متن از PDF
  • استخراج تصاویر از PDF
  • استخراج فونت از PDF
  • استخراج داده ها از فرم
  • استخراج متن از تمبرها
  • استخراج داده ها از جدول

به منظور استخراج فایل PDF، ما از Aspose.PDF for .NET API استفاده خواهیم کرد که یک API دستکاری سند غنی، قدرتمند و آسان برای استفاده برای پلت فرم net است. مدیر بسته NuGet را باز کنید، Aspose.pdf را جستجو کرده و نصب کنید. شما همچنین می توانید از دستور زیر از کنسول مدیریت بسته استفاده کنید.

Package Manager Console

PM > Install-Package Aspose.PDF

تجزیه PDF از طریق C#


برای امتحان کد در محیط خود، شما نیاز به Aspose.PDF برای .NET.

۱. PDF را با نمونه ای از سند بارگذاری کنید. ۱. برای استخراج متن متن آبجکت Sorber ایجاد کنید. ۱. جذب برای تمام صفحات را بپذیرید. ۱. متن استخراج شده را دریافت کنید ۱. یک نویسنده ایجاد کنید و فایل را باز کنید، یک خط متن را به فایل بنویسید

استخراج فایلهای PDF - C#

این کد نمونه نحوه استخراج اسناد PDF را نشان می دهد

Input file:

File not added

Output format:

PDF

Output file:


    // Open document
    Document pdfDocument = new Document(dataDir + "ExtractTextAll.pdf");

    // Create TextAbsorber object to extract text
    TextAbsorber textAbsorber = new TextAbsorber();
    // Accept the absorber for all the pages
    pdfDocument.Pages.Accept(textAbsorber);
    // Get the extracted text
    string extractedText = textAbsorber.Text;
    // Create a writer and open the file
    TextWriter tw = new StreamWriter(dataDir + "extracted-text.txt");
    // Write a line of text to the file
    tw.WriteLine(extractedText);
    // Close the stream
    tw.Close();

درباره Aspose.PDF برای .NET API

Aspose.PDF for C# API طیف گسترده ای از ویژگی ها را برای کار با فایل های PDF فراهم می کند. برخی از ویژگی ها عبارتند از:

  • اسناد PDF را از ابتدا یا از HTML، XML یا تصاویر ایجاد کنید.
  • ویرایش اسناد PDF موجود با اضافه کردن یا حذف صفحات، متن، تصاویر، و محتوای دیگر.
  • اسناد PDF را به فرمت های دیگر مانند HTML، XML و تصاویر تبدیل کنید.
  • اسناد PDF را به تصاویر یا فرمت XPS رندر کنید.
  • اسناد PDF را مستقیماً از برنامه خود چاپ کنید.
  • اسناد PDF را به صورت دیجیتالی امضا کنید.

شما می توانید اطلاعات بیشتر در مورد Aspose.PDF برای API C# را در این مستندات Aspose پیدا کنید