Как получить содержимое ajax_keys(например вывести значение b8a7b9a9659a495fd8a7483a7f699d7420a60dc1)? Как парсить html разобрался, но вот подлезть к содержимому яваскрипта не получается.
Cпасибо. Регулярными выражениями пользуюсь не часто, но попробую. У меня подход был такой: распарсил html страницу, потом подобрался к нужному скрипту при помощи Хpath. При попытке вывести содержимое элемента, выводит только что-то аля <Element script at 350ad08>.
можно значительно проще, если вам просто надо достать айдишники (конечно, если более сложная задача, тогда может быть надо другой подход выбирать, все зависит от случая и контекста)
- получать html код страницы с помощью urllib
- получить нужный код с помощью регулярных выражений, тут просто надо написать правильное регулярное выражение
например, могу показать такой вот код,
import re, urllib, pprint
COUNT = 3
url = "https://news.google.com/?ned=us"
ufile = urllib.urlopen(url)
text = ufile.read()
title = re.findall("<h2 class=\"esc-lead-article-title\"><a.*><span class=\"titletext\">(.*)</span></a></h2>", text)