Доброго времени суток!
Стоит задача верификации PDF-отчетов. Данную тему читал, предложенное решение не совсем подходит. Собственно, на текущий момент подготовлен модуль, работающий с itextpdf либой. Для анализа элементов формируется xml модель на основе pdf исходника. Проблема в том, что сама либа дробит текст на множество блоков, которые порой очень непросто найти. К примеру, строка "Какой чудесный день" может в xml модели быть представлена в виде:
<text id="3" pageNumber="1"><ascentLineRectangle><height>1.0</height><width>25.0</width><x>164.0</x><y>754.0</y></ascentLineRectangle><baseLineRectangle><height>1.0</height><width>25.0</width><x>164.0</x><y>744.0</y></baseLineRectangle><descentLineRectangle><height>1.0</height><width>25.0</width><x>164.0</x><y>741.0</y></descentLineRectangle><fontName>Helvetica-Bold</fontName><renderMode>0</renderMode><singleSpaceWidth>3.6139984</singleSpaceWidth><text>Како</text></text><text id="5" pageNumber="1">...<text>й</text></text><text id="7" pageNumber="1">...<text>чудесны</text></text><text id="11" pageNumber="1">...<text>й</text></text><text id="17" pageNumber="1">...<text>день</text></text>
verifyText(PDFElement.Title, "Какой чудесный день");