Проверка PDF файла после скачивания в автотесте

Andrej_Rodionov · 22.Декабрь.2022 10:38:03

Всем привет! Есть задача: скачать pdf файл и проверить не только сам факт успешного скачивания, но и текст внутри pdf файла.

У кого-нибудь есть опыт реализации такой задачи на java? Вроде как есть инструменты парсинга pdf в строку, но хотелось бы найти оптимальный инструмент.

Alexandr2 · 22.Декабрь.2022 12:13:08

        FileInputStream fis = new FileInputStream("build/reports/tests/" + doc_name);
        PDFTextStripper tStripper = new PDFTextStripper();
        String pdfFileInText = tStripper.getText(PDDocument.load(fis)).replace("\n", "").replace("\r", "");

я вот так делаю, ну и потом уде выполняю проверки.

asolntsev · 22.Декабрь.2022 20:06:49

Конечно есть!

Andrej_Rodionov · 16.Февраль.2023 11:29:16

@Test
  public void bankTransaction() throws Exception {
    PDF pdf = new PDF(getClass().getClassLoader().getResource("transaction.pdf"));
    assertThat(pdf, containsText("24.06.2015"));
}

Правильно пониманию что данный тест проверит только первое вхождение даты в документе?
А есть решение если нужно проверить несколько таких дат в разных частях документа?

asolntsev · 17.Февраль.2023 07:43:03

Привет!
Да, такая строчка проверит только первое вхождение даты.
А как мог бы выглядеть метод для проверки нескольких дат?
Насколько я понимаю, PDF не даёт возможности проверить, в каком именно месте документа была та или иная дата.

Может быть, вам поможет новый метод matchesText?

assertThat(pdf).matchesText(".*24\\.06\\.2015.*25\\.07\\.2015.*26\\.08\\.2015.*");

Я зарелизил версию 1.8.1 с этим методом, через несколько минут она будет доступна.

Andrej_Rodionov · 17.Февраль.2023 08:33:30

Я думал что-то вроде containsText(String, int number)

Метод должен определить что искомая строка встречается в документе n кол-во раз.

Например, у нас документ из 10 страниц и на каждой в шапке есть номер документа, и надо проверить что этот номер документа 10 раз встречается в PDF (без привязки к конкретному месту документа)

asolntsev · 17.Февраль.2023 11:25:35

А, ну да, такой матчер легко сделать.

sergueik · 17.Февраль.2023 14:19:54

советую использнуть pdfbox
https://mvnrepository.com/artifact/org.apache.pdfbox

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.interactive.digitalsignature.PDSignature;
import org.apache.pdfbox.text.PDFTextStripper;

PDF pdf = new PDF(f.toURL());
assertThat(pdf.text, containsString("The Free Encyclopedia"));
// NOTE: locale UTF8
assertThat(pdf.text, containsString("Русский"));
assertThat(pdf.text, containsString("Français"));


	public static class PDF {
		public final byte[] content;

		public final String text;
		public final int numberOfPages;
		public final String author;
		public final String creator;
		public final String keywords;
		public final String producer;
		public final String subject;
		public final String title;
		public final boolean encrypted;
		public final boolean signed;
		public final String signerName;

		private PDF(String name, byte[] content) {
			this(name, content, 1, Integer.MAX_VALUE);
		}

		private PDF(String name, byte[] content, int startPage, int endPage) {
			this.content = content;

			try (InputStream inputStream = new ByteArrayInputStream(content)) {
				try (PDDocument pdf = PDDocument.load(inputStream)) {
					PDFTextStripper pdfTextStripper = new PDFTextStripper();
					pdfTextStripper.setStartPage(startPage);
					pdfTextStripper.setEndPage(endPage);
					this.text = pdfTextStripper.getText(pdf);
					this.numberOfPages = pdf.getNumberOfPages();
					this.author = pdf.getDocumentInformation().getAuthor();
					// this.creationDate = pdf.getDocumentInformation().getCreationDate();
					this.creator = pdf.getDocumentInformation().getCreator();
					this.keywords = pdf.getDocumentInformation().getKeywords();
					this.producer = pdf.getDocumentInformation().getProducer();
					this.subject = pdf.getDocumentInformation().getSubject();
					this.title = pdf.getDocumentInformation().getTitle();
					this.encrypted = pdf.isEncrypted();

					PDSignature signature = pdf.getLastSignatureDictionary();
					this.signed = signature != null;
					this.signerName = signature == null ? null : signature.getName();
				}
			} catch (Exception e) {
				throw new IllegalArgumentException("Invalid PDF file: " + name, e);
			}
		}

полный пример здесь

github.com

sergueik/cdp_webdriver/blob/master/src/test/java/example/PrintPDFTest.java

package example;

/**
 * Copyright 2021,2022 Serguei Kouzmine
 */
import static org.hamcrest.CoreMatchers.containsString;
import static org.hamcrest.CoreMatchers.equalTo;
import static org.hamcrest.CoreMatchers.is;
import static org.hamcrest.CoreMatchers.nullValue;
import static org.hamcrest.CoreMatchers.notNullValue;
import static org.hamcrest.MatcherAssert.assertThat;

import java.io.ByteArrayInputStream;
import java.io.ByteArrayOutputStream;
import java.io.File;
import java.io.IOException;
import java.io.InputStream;

import java.net.URL;
import java.nio.file.Files;

This file has been truncated. show original

или здесь

github.com

sergueik/selenium_cdp/blob/master/src/test/java/com/github/sergueik/selenium/PrintToPDFCDPTest.java

package com.github.sergueik.selenium;
/**
 * Copyright 2022 Serguei Kouzmine
 */

import static org.hamcrest.CoreMatchers.containsString;
import static org.hamcrest.CoreMatchers.equalTo;
import static org.hamcrest.CoreMatchers.is;
import static org.hamcrest.CoreMatchers.nullValue;
import static org.hamcrest.CoreMatchers.notNullValue;
import static org.hamcrest.MatcherAssert.assertThat;
import static org.hamcrest.Matchers.hasKey;

import java.io.ByteArrayInputStream;
import java.io.ByteArrayOutputStream;
import java.io.DataOutputStream;
import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStream;

This file has been truncated. show original

или здесь

github.com

sergueik/selenium_cdp/blob/master/src/test/java/com/github/sergueik/selenium/PrintToPDFDevToolsTest.java

package com.github.sergueik.selenium;
/**
 * Copyright 2022 Serguei Kouzmine
 */

import static org.hamcrest.CoreMatchers.containsString;
import static org.hamcrest.CoreMatchers.equalTo;
import static org.hamcrest.CoreMatchers.is;
import static org.hamcrest.CoreMatchers.nullValue;
import static org.hamcrest.CoreMatchers.notNullValue;
import static org.hamcrest.MatcherAssert.assertThat;

import java.io.ByteArrayInputStream;
import java.io.ByteArrayOutputStream;
import java.io.DataOutputStream;
import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.io.UnsupportedEncodingException;

This file has been truncated. show original

asolntsev · 21.Февраль.2023 15:23:23

Вышеупомянутая pdf-test как раз и использует pdfbox, просто нужные матчеры уже есть из коробки.

sergueik · 26.Февраль.2023 02:28:25

спасибо

Anton_Sklyarov · 03.Июль.2024 12:31:31

А есть ли софт ассерты в pdf test? если необходимо проверить несколько значений, но нет желания обваливаться на первом несоответствии.

asolntsev · 07.Июль.2024 08:43:47

Для ассерта пока нет. Добавим в версии 1.9.0 (надеюсь сегодня вечером зарелизить).

А вот в JUnit5 можно использовать метод assertAll.