Порнокейс! поиск по DOM в виде string, средствами WD

nikitoz777 · 29.Декабрь.2017 12:04:24

првиет всем!

есть такой порнокейс:
имеется DOM в виде string. как можно испольтзовать такую стрингу, чтобы искать в ней с помощью всех встреонных методов FindElement и тд?

NikS · 29.Декабрь.2017 12:18:27

А что потом планируется делать с найденными элементами?

Если цель искать элементы и не обязательно средствами WD. То попробуйте библиотеку https://jsoup.org/

nikitoz777 · 29.Декабрь.2017 12:23:28

планируется доставать только текст

NikS · 29.Декабрь.2017 13:02:13

Тогда jsoup в помощь. Селекторы очень схожы с xpath + есть свои псевдо селекторы. Мне эта библиотечка зашла. Пользуюсь до сих пор.

nikitoz777 · 29.Декабрь.2017 13:06:48

я на си шарпе(

NikS · 29.Декабрь.2017 13:08:20

Тогда поможет биндинг этой библиотеки на C# https://nsoup.codeplex.com/

nikitoz777 · 29.Декабрь.2017 13:12:53

о , круто, спс попробую но уже в след году:) а как либа относится к знакам разметки? /r/n

NikS · 29.Декабрь.2017 13:17:22

Это внутри полученного текста? Вроде нормально. Ничего не съедает и не прячет самостоятельно

fujif23 · 30.Декабрь.2017 17:44:48

Когда работал на с# проекте мы использовали html-agility-pack

Mes · 01.Январь.2018 15:37:00

Вдогону, кому надо работать в JS:
GitHub - cheeriojs/cheerio: The fast, flexible, and elegant library for parsing and manipulating HTML and XML. - отличная либа.

sergueik · 01.Январь.2018 20:40:55

а кто нибудь пользовался GitHub - jamietre/CsQuery: CsQuery is a complete CSS selector engine, HTML parser, and jQuery port for C# and .NET 4. ?

xotabu4 · 02.Январь.2018 08:35:38

Я бы попытался спарсить в XML, а потом уже намного удобней работать.

nikitoz777 · 02.Январь.2018 08:45:20

не получится ибо страница содержит скрипты со спецсимволами которые содержатся в скриптах

xotabu4 · 02.Январь.2018 08:46:33

Можно пример такой ноды с спецсимволами в HTML?

nikitoz777 · 02.Январь.2018 09:53:32

сейчас не могу . список запрещенных символов в хмл можете найти в гугле

xotabu4 · 02.Январь.2018 11:15:40

Спасибо за предложение погуглить, но по моему это вы просили помощь как вам работать с дом деревом а не я )

Современные парсеры номрально все это преобразовывают, да и скрипты по сути не нужны - если уж на то пошло их можно просто вырезать перед парсингом.

Вот допустим - GitHub - fb55/htmlparser2: The fast & forgiving HTML and XML parser тут даже встроенный DomUtils есть.

nikitoz777 · 02.Январь.2018 16:03:15

речь шла конкретно про преобразование в хмл, которое вы предложили. я ответил почему это невозможно. скрипты будут полюбому, и вырезать их перед обработкой выглядит костыльно.

хотелось бы работать с ДОМом через селекторы

xotabu4 · 03.Январь.2018 08:02:50

Ну ок

nikitoz777 · 03.Январь.2018 08:54:15

да, могу объяснть почему DOM в виде стринги:
мне нужно вытягивать информацию с одного ресурса у которого нет апи, а на запросы приходит html страница. запросы я научился делать, а вот как лучше спарсить такую страницу я еще думаю. в идеале было бы сделать так чтобы запихнуть в вебдрайвер такую структуру и работать с ним как обычно

Kokoch · 03.Январь.2018 20:46:55

Мне кажется что это код делает то что вам нужно:

import requests
import lxml.html as parser


def main():
    url = 'url'
    response = requests.get(url)
    html = response.text
    root = parser.fromstring(html)
    items = root.cssselect('collection_selector')

    for i in items:
        print i.cssselect("item_selector").text