Считывание контента PDF файла C# WebDriver

Oleksandr_Pushchalo · 09.Ноябрь.2020 18:33:01

Проблема (Вопрос) заключается в том, что надо считать контент PDF файла. Selenium C# тесты запускаются на Jenkins (Windows Server) и ранятся в докер контейнере с Chrome через Selenoid (Ubuntu Server).

Локально у себя на машине я знаю как это сделать: сохранить pdf файл у себя на Windows машине и считать его или открыть pdf файл в отдельной вкладке и сделать Ctrl+A, Ctrl+C и считать текст с clipboard. А вот как сделать это в докер контейнере не знаю.

Пробовал тоже Ctrl+A, Ctrl+Shift+C и считать текст с clipboard, но ничего не вышло.
Как и куда скачать pdf-файл и считать его не знаю, поскольку тесты ранятся на Windows сервере и доступ будет к папкам только с Windows сервера.

Кто сталкивался с такой проблемой и имеет решение?

madvlaydin · 09.Ноябрь.2020 19:16:12

так вы определитесь, где тесты запускаются, в контейнере или на виндовс сервере

если в контейнере, то скачивайте файл в какой-нибудь volume каталог, и оттуда уже вычитывайте содержимое

Oleksandr_Pushchalo · 09.Ноябрь.2020 19:29:28

Я наверное неправильно объясняюсь. Исполняемый файл находится на Windows Server. Там же находится Jenkins. Тесты выполняются с помощью RemoteDriver подключаясь к Selenoid на Ubuntu Server в Chrome докер контейнере.
Объясните, что значит volume каталог? Можно пример?

sergueik · 10.Ноябрь.2020 02:52:45

сохраните pdf локально любым доступным вам способом и
попробуйте извлечь из него текст используя pdfbox https://pdfbox.apache.org -

Oleksandr_Pushchalo · 10.Ноябрь.2020 11:47:37

Сергей, спасибо за совет, но в заголовке написано, что проект C#, а вы даете библиотеку Java. Вопрос не стоит, как прочитать текст из файла. Вопрос стоит, можно ли скопировать содержимое pdf файла на закладке в clipboard или куда сохранить файл и как к нему доступиться?

madvlaydin · 10.Ноябрь.2020 11:50:30

volume каталог - это каталог, общий между контейнером и хост тачкой

вам нужно в контейнер прокинуть этот вольюм, тестом скачивать файл в него, и уже дальше кодом работать с этим файлом

Oleksandr_Pushchalo · 10.Ноябрь.2020 13:23:27

Владислав, если Вас не затруднит, могли бы немного рассписать, какие комманды нужно будет выполнить и как доступится с Windows сервера с Jenkins к этой папке?
Пока нашел решение, как скопировать данные с clipboard докер контейнера. Но это больше костыли. Правильнее было б скачать файл и считать его.
Делаю клик на табе с документом, Ctrl+A, Ctrl+Shift+C, дальше получаю ответ с запроса к clipboard.

               new Actions(driver).MoveToElement(driver.FindElement(By.TagName("body")), 100, 100)
                    .Click()
                    .Perform();
           
                new Actions(driver).KeyDown(Keys.Control)
                  .SendKeys("a")
                  .KeyUp(Keys.Control)
                   .Perform();

                new Actions(driver).KeyDown(Keys.Control)
                    .KeyDown(Keys.Shift)
                    .SendKeys("c")
                    .KeyUp(Keys.Control)
                    .KeyUp(Keys.Shift)
                    .Perform();
               //сессия Selenoid
                string sessionId = ((RemoteWebDriver)driver).SessionId.ToString();
               //адресс к Selenoid clipboard 
               //http://selenoid-host.example.com:4444/clipboard/f2bcd32b-d932-4cdc-a639-687ab8e4f840
                string url = "http://selenoid-host.example.com:4444/clipboard/" + sessionId;

                using (var wb = new WebClient())
                {
                    text = wb.DownloadString(url);
                }

sergueik · 11.Ноябрь.2020 01:03:34

@ Oleksandr_Pushchalo

вроде имеется
PDFsharp

A .NET library for processing PDF

по поводу получегия файла докумена - есть ссылка со страницы которую вы тестируете ? она что - защищена и требует пользовательской сессии чтобы получить файл ?

Oleksandr_Pushchalo · 11.Ноябрь.2020 09:38:11

Да, Сергей. Нужно залогиниться, чтобы получить файл. И файл сам по себе не хранится и генерируется.

sergueik · 11.Ноябрь.2020 13:58:19

урл значит знаете
посмотрите через дев консоль как запрашивается документ страницей - какие заголовки
куки наверное
и скачайте прямым HttpRequest

crazymakcter · 12.Ноябрь.2020 18:18:52

Привет.
Давай по порядку
Скачать файл с селеноида, как это сделать:

Установить парметры для профиля (нужно гуглить для C# приведу пример для Джавы)
ChromeOptions chromeOptions = new ChromeOptions();
chromeOptions.setExperimentalOption(“prefs”, new HashMap<String, Object>(){
{
put(“profile.default_content_settings.popups”, 0);
put(“download.default_directory”, “/home/selenium/Downloads”);
put(“download.prompt_for_download”, false);
put(“download.directory_upgrade”, true);
put(“safebrowsing.enabled”, false);
put(“plugins.always_open_pdf_externally”, true);
put(“plugins.plugins_disabled”, new ArrayList(){
{
add(“Chrome PDF Viewer”);
}
});
}
});

WebDriver driver = new RemoteWebDriver(new URL(“http://localhost:4444/wd/hub”), chromeOptions);
driver.navigate().to(“http://example.com/myfile.odt”);
2. Добавить где-то в тестах хранения сессии когда поднимаеться браузер
3. Добавить скачивание файла из поднятого контейнера (до закрытия сессии)
http://selenoid-host.example.com:4444/download/f2bcd32b-d932-4cdc-a639-687ab8e4f840/myfile.txt

Сам контент файла:
любая парсилка pdf на C# - и у тебя есть контент

если будут именно вопросы к доступу к файлу, и кускам кодам, стучись в ЛС

sergueik · 13.Ноябрь.2020 02:04:29

@ crazymakcter[Maksym Vertebnyi](https://automated-testing.info/u/crazym heaakcter)

вам может быть интересно узнать что похоже в докере headless chromium alpine сохранение работает но пишет в текущую директорию a не туда куда скажут :


	@Test
	public void downloadPDF() {
		url = "http://www.africau.edu/images/default/sample.pdf";
		driver.get(url);
		try {
			Thread.sleep(5000);
		} catch (InterruptedException e) {
		}
		File f = new File((downloadDirectory != null ? downloadDirectory : "/tmp") + "/" + "sample,pdf");
		assertThat(f.exists(), is(false));
		file = new File(System.getProperty("user.dir") + "/" + "sample.pdf");
		assertThat(file.exists(), is(true));
	}

docker run -it -v "$PWD/demo.selenium":/demo -w /demo $IMAGE mvn clean test ; 
CONTAINER=$(docker container ls -a |grep 'basic-maven-chromium' | head -1 | cut -f1 -d ' '); docker container start $CONTAINER;docker exec -it $CONTAINER sh -c "find / -iname '*pdf' 2>/dev/null"

fe728cfc1b7e
/demo/sample.pdf

crazymakcter · 13.Ноябрь.2020 07:41:42

Спасибо, не знал. Сейчас не пишу автотесты для UI, но в будущем пригодиться.