استخراج متن از PDF در C++

نحوه استخراج متن از PDF با استفاده از C++

نحوه استخراج متن از PDF با استفاده از ابزار C++

آیا شما نیاز به استخراج متن از PDF دارید؟ اصلاح برنامه ای اسناد PDF بخش مهمی از گردش کار دیجیتال مدرن است. با کتابخانه های C++ مانند Aspose.PDF، توسعه دهندگان می توانند متن را از PDF استخراج کنند. این کتابخانه ها راه حل های مستقلی هستند که به نرم افزارهای دیگر متکی نیستند و برای استفاده تجاری آماده هستند. آنها تمام نیازهای احتمالی توسعه دهندگان حرفه ای ++C را پوشش می دهند.

  • استخراج متن از PDF
  • استخراج تصاویر از PDF
  • استخراج فونت از PDF
  • استخراج داده ها از فرم
  • استخراج متن از تمبرها
  • استخراج داده ها از جدول

به منظور استخراج متن از فایل PDF، ما از API Aspose.PDF for C++ استفاده خواهیم کرد که یک API دستکاری سند غنی، قدرتمند و آسان برای استفاده از پلت فرم cpp است. مدیر بسته NuGet را باز کنید، Aspose.pdf را جستجو کرده و نصب کنید. شما همچنین می توانید از دستور زیر از کنسول مدیریت بسته استفاده کنید.

Package Manager Console

PM > Install-Package Aspose.PDF.Cpp

استخراج متن از PDF در C++


شما به Aspose.PDF for C++ نیاز دارید تا کد را در محیط خود امتحان کنید.

۱. PDF را با یک نمونه از سند بارگذاری کنید. ۱. برای استخراج متن، شیء TextObsorber را ایجاد کنید. ۱. جذب کننده را برای تمام صفحات بپذیرید. ۱. متن استخراج شده را دریافت کنید ۱. یک نویسنده ایجاد کنید و فایل را باز کنید، یک خط متن را به فایل بنویسید

استخراج متن از PDF - C++

این کد نمونه نحوه استخراج متن از اسناد PDF را نشان می دهد

Input file:

File not added

Output format:

PDF

Output file:


    void ExtractTextFromAllThePages() {

    std::clog << __func__ << ": Start" << std::endl;
    // String for path name
    String _dataDir("C:\\Samples\\Parsing\\");

    // String for file name
    String infilename("sample-4pages.pdf");
    String outfilename("extracted-text.txt");

    // Open document
    auto document = MakeObject<Document>(_dataDir + infilename);

    // Create TextAbsorber object to extract text
    auto textAbsorber = MakeObject<TextAbsorber>();
    // Accept the absorber for all the pages
    document->get_Pages()->Accept(textAbsorber);
    // Get the extracted text
    auto extractedText = textAbsorber->get_Text();

    System::IO::File::WriteAllText(_dataDir + outfilename, extractedText);
    std::clog << __func__ << ": Finish" << std::endl;
}

درباره Aspose.PDF برای C++ API

Aspose.PDF برای C++ یک کتابخانه پردازش قدرتمند است که توسعه دهندگان را قادر می سازد تا اسناد PDF را بدون استفاده از Adobe Acrobat ایجاد، بخوانند و دستکاری کنند. طیف گسترده ای از ویژگی ها مانند ایجاد فرم، افزودن/ویرایش متن، دستکاری صفحات PDF، اضافه کردن حاشیه نویسی، مدیریت فونت های سفارشی و موارد دیگر را فراهم می کند.

Aspose.PDF برای C++ یک کتابخانه است که توسعه دهندگان را قادر می سازد قابلیت پردازش PDF را به برنامه های خود اضافه کنند. API را می توان برای ساخت برنامه های 32 بیتی و 64 بیتی برای تولید، خواندن، تبدیل و دستکاری فایل های PDF بدون استفاده از Adobe Acrobat استفاده کرد.

در مرجع API می توانید توضیحات و نمونه های دقیق برای هر کلاس و روش را در [Aspose.PDF برای کتابخانه C++] پیدا کنید (https://products.aspose.com/pdf/cpp). همچنین توصیه می کند که [مستندات] را مشاهده کنید (https://docs.aspose.com/pdf/cpp/).