__author__ = ' Администратор ' # - * - кодирование = GBK - * - импорт запросов импортировать ОС от BS4 импорта BeautifulSoup из urllib.parse импорта urlparse г = requests.get ( ' http://xiachufang.com/ ' ) суп = BeautifulSoup ( r.text) img_list = [] для IMG в soup.select ( ' IMG ' ): если img.has_attr ( ' данных SRC '): Img_list.append (img.attrs [ ' данных-Src ' ]) еще : img_list.append (img.attrs [ ' SRC ' ]) image_dir = os.path.join (os.curdir, ' изображения ' ) печати ( image_dir) печать (os.curdir) , если не os.path.isdir (image_dir): os.makedirs (image_dir) для IMG в img_list: о = urlparse (IMG) имя файла = o.path [1:]. раскол ( ' @ ' ) [0] путь_к_файл = os.path.join (image_dir, имя файла) для печати (img.split ( ' ? ' ) [0] .split ( ' @ ' ) [0]) RESP = requests.get (img.split ( ' ? ' ) [ 0] .split ( ' @ ' ) [0]) с Open (FilePath, ' WB ' ) AS F: для фрагмента в resp.iter_content (1024): # установить размер блока кэш записи f.write (фрагмент)
URLLIB в python3 стандартную библиотеку разбора из в urllib.request импорта urlopen R & л = urlopen ( " http://httpbin.org/get " ) r.read () # дает бинарный содержание текста r.read = (). декодировать ( " UTF - 8 . " ) # расшифровывает его в строку, потому что содержание этого сайта является содержание внутри , чтобы получить формат JSON, вы можете использовать json.loads (г) r.status # возвращает результат запроса HU 200 r.reson # описание реж (г ) # пройти весь путь, все эти объекты имеют метод r.headers # получить информацию заголовка XPath является XML - документ , чтобы найти информацию на языке понятий Узел Элементы, атрибуты, текст, совместное пространство имен документа (корневой) узел отношения узел между родителем ребенка соотечественникам предков потомкам выражение // выбрать из любого суб-узла / выберите точку разреза от корня . Выбранный из текущего узла . , Родитель текущего узла @ принять имущество