استخراج متن از PDF در C++

نحوه استخراج متن از PDF با استفاده از C++

نحوه استخراج متن از PDF با استفاده از Aspose.PDF برای C++

آیا شما نیاز به استخراج متن از PDF دارید؟ اصلاح برنامه ای اسناد PDF بخش مهمی از گردش کار دیجیتال مدرن است. با کتابخانه های C++ مانند Aspose.PDF، توسعه دهندگان می توانند متن را از PDF استخراج کنند. این کتابخانه ها راه حل های مستقلی هستند که به نرم افزارهای دیگر متکی نیستند و برای استفاده تجاری آماده هستند. آنها تمام نیازهای احتمالی توسعه دهندگان حرفه ای ++C را پوشش می دهند.

  • استخراج متن از PDF
  • استخراج تصاویر از PDF
  • استخراج فونت از PDF
  • استخراج داده ها از فرم
  • استخراج متن از تمبرها
  • استخراج داده ها از جدول

به منظور استخراج متن از فایل PDF، ما از API Aspose.PDF for C++ استفاده خواهیم کرد که یک API دستکاری سند غنی، قدرتمند و آسان برای استفاده از پلت فرم cpp است. مدیر بسته NuGet را باز کنید، Aspose.PDF را جستجو کرده و نصب کنید. شما همچنین می توانید از دستور زیر از کنسول مدیریت بسته استفاده کنید.

Package Manager Console

PM > Install-Package Aspose.PDF.Cpp

استخراج متن از PDF در C++


شما به Aspose.PDF for C++ نیاز دارید تا کد را در محیط خود امتحان کنید.

۱. PDF را با یک نمونه از سند بارگذاری کنید. ۱. برای استخراج متن، شیء TextObsorber را ایجاد کنید. ۱. جذب کننده را برای تمام صفحات بپذیرید. ۱. متن استخراج شده را دریافت کنید ۱. یک نویسنده ایجاد کنید و فایل را باز کنید، یک خط متن را به فایل بنویسید

استخراج متن از PDF با C++

این کد نمونه نحوه استخراج متن از اسناد PDF را نشان می دهد

Input file:

File not added

Output format:

PDF

Output file:


    void ExtractTextFromAllThePages() {

    std::clog << __func__ << ": Start" << std::endl;
    // String for path name
    String _dataDir("C:\\Samples\\Parsing\\");

    // String for file name
    String infilename("sample-4pages.pdf");
    String outfilename("extracted-text.txt");

    // Open document
    auto document = MakeObject<Document>(_dataDir + infilename);

    // Create TextAbsorber object to extract text
    auto textAbsorber = MakeObject<TextAbsorber>();
    // Accept the absorber for all the pages
    document->get_Pages()->Accept(textAbsorber);
    // Get the extracted text
    auto extractedText = textAbsorber->get_Text();

    System::IO::File::WriteAllText(_dataDir + outfilename, extractedText);
    std::clog << __func__ << ": Finish" << std::endl;
}

درباره Aspose.PDF for C++ API

Aspose.PDF برای C++ یک کتابخانه پردازش قدرتمند است که توسعه دهندگان را قادر می سازد اسناد PDF را بدون استفاده از Adobe Acrobat ایجاد، خواندن و دستکاری کنند. این طیف گسترده ای از ویژگی ها، مانند ایجاد فرم ها، اضافه کردن/ویرایش متن، دستکاری صفحات PDF، اضافه کردن حاشیه نویسی، دست زدن به فونت های سفارشی و خیلی بیشتر را فراهم می کند.

Aspose.PDF برای C++ یک کتابخانه است که توسعه دهندگان را قادر می سازد تا قابلیت های پردازش PDF را به برنامه های خود اضافه کنند. API می تواند برای ساخت برنامه های 32 بیتی و 64 بیتی برای تولید، خواندن، تبدیل و دستکاری فایل های PDF بدون استفاده از Adobe Acrobat استفاده شود.

در مرجع API، شما می توانید توضیحات و نمونه های دقیق برای هر کلاس و روش در Aspose.PDF برای کتابخانه C++. آن نیز توصیه می کند مشاهده یک مستندات.