استخراج متن از PDF در C#

نحوه استخراج متن از PDF با استفاده از .NET

نحوه استخراج متن از PDF با استفاده از Aspose.PDF برای .NET

آیا شما نیاز به استخراج متن از PDF دارید؟ اصلاح برنامه ای اسناد PDF بخش مهمی از گردش کار دیجیتال مدرن است. با استفاده از کتابخانه های دات نت مانند Aspose.PDF، توسعه دهندگان می توانند متن را از PDF استخراج کنند. این کتابخانه ها راه حل های مستقلی هستند که به نرم افزارهای دیگر متکی نیستند و برای استفاده تجاری آماده هستند. آنها تمام نیازهای احتمالی توسعه دهندگان حرفه ای C# را پوشش می دهند.

  • استخراج متن از PDF
  • استخراج تصاویر از PDF
  • استخراج فونت از PDF
  • استخراج داده ها از فرم
  • استخراج متن از تمبرها
  • استخراج داده ها از جدول

به منظور استخراج متن از فایل PDF، ما از Aspose.PDF for .NET API استفاده خواهیم کرد که یک API دستکاری سند غنی، قدرتمند و آسان برای استفاده برای پلت فرم net است. مدیر بسته NuGet را باز کنید، Aspose.pdf را جستجو کرده و نصب کنید. شما همچنین می توانید از دستور زیر از کنسول مدیریت بسته استفاده کنید.

Package Manager Console

PM > Install-Package Aspose.PDF

استخراج متن از PDF در C#


برای امتحان کردن کد در محیط خود، به Aspose.PDF for .NET نیاز دارید.

۱. PDF را با یک نمونه از سند بارگذاری کنید. ۱. برای استخراج متن، شیء TextObsorber را ایجاد کنید. ۱. جذب کننده را برای تمام صفحات بپذیرید. ۱. متن استخراج شده را دریافت کنید ۱. یک نویسنده ایجاد کنید و فایل را باز کنید، یک خط متن را به فایل بنویسید

استخراج متن از PDF با C#

این کد نمونه نحوه استخراج متن از اسناد PDF را نشان می دهد

Input file:

File not added

Output format:

PDF

Output file:

var inputFile = Path.Combine(dataDir, "ExtractTextAll.pdf");
var outputFile = Path.Combine(dataDir, "ExtractedText.txt");
var pdfDocument = new Aspose.Pdf.Document(inputFile);
var textAbsorber = new Aspose.Pdf.Text.TextAbsorber();
textAbsorber.TextSearchOptions.LimitToPageBounds = true;
textAbsorber.TextSearchOptions.Rectangle = new Aspose.Pdf.Rectangle(100, 200, 250, 350);
pdfDocument.Pages.Accept(textAbsorber);
File.WriteAllText(outputFile, textAbsorber.Text);

درباره Aspose.PDF for .NET API

Aspose.PDF برای .NET API طیف گسترده ای از ویژگی ها را برای کار با فایل های PDF فراهم می کند. برخی از ویژگی ها عبارتند از:

  • اسناد PDF را از ابتدا یا از HTML، XML یا تصاویر ایجاد کنید.
  • اسناد PDF موجود را با افزودن یا حذف صفحات، متن، تصاویر و سایر مطالب ویرایش کنید.
  • تبدیل اسناد PDF به فرمت های دیگر مانند HTML، XML و تصاویر.
  • رندر اسناد PDF به تصاویر یا فرمت XPS.
  • اسناد PDF را مستقیماً از برنامه خود چاپ کنید.
  • اسناد PDF را به صورت دیجیتال امضا کنید.

شما می توانید اطلاعات بیشتری در مورد Aspose.PDF برای C# API را در این [مستندات Aspose] پیدا کنید (https://docs.aspose.com/pdf/net/)