Channel: InfoQ - 促进软件开发领域知识与创新的传播

X Mark channel Not-Safe-For-Work? cancel confirm NSFW Votes: (0 votes)

X Are you the publisher? Claim or contact us about this channel.

X 0

Showing article 921 of 1056 in channel 67946933
Channel Details:

Title: InfoQ - 促进软件开发领域知识与创新的传播
Channel Number: 67946933
Language: Chinese
Registered On: August 12, 2016, 4:41 am
Number of Articles: 1056
Latest Snapshot: January 13, 2020, 12:23 pm
RSS URL: http://www.infoq.com/cn/feed/weifuwu
Publisher: https://www.infoq.cn
Description: InfoQ 是一个实践驱动的社区资讯站点，致力于促进软件开发领域知识与创新的传播。
Catalog: //infoq654.rssing.com/catalog.php?indx=67946933

↧

使用 Python 和 Scrapy 半小时爬了10 个在线商店的网页

November 29, 2019, 8:49 am

≫ Next: V神：区块链最关注的3大问题解决了吗？

≪ Previous: 如何基于苹果推出的CoreML 3.0从零开发一个图像分类应用？

Scrapy 是 Python 开发的一个快速，高层次的屏幕抓取和 web 抓取框架，用于抓取 web 站点并从页面中提取结构化的数据。Scrapy 用途广泛，可以用于数据挖掘、监测和自动化测试。本文作者 Erdem İşbilen 为我们演示了如何使用 Python 和 Scrapy 怎样在半个小时内对 10 个在线商店抓取信息。有了 Python 和 Scrapy，我们就可以完成大量的工作，而不需要自己费大力气去开发。

获取启动 App 项目所需的源数据是一步。即便你是全栈开发人员，希望开发一款出色的 Web 应用程序，并能全身心投入到项目中。在编写代码之前，仍然需要一个与领域相关的数据集。这是因为现代应用程序会同时或成批处理大量数据，以便为其用户提供价值。本文，我将解释生成这样一个数据集的工作流程。你将会看到，我在没有任何人工干预的情况下是如何对许多网站进行自动网页抓取的。

我的目标是为价格比较网络应用程序生成一个数据集。我将使用的产品类别以手提袋为例。对于这样的应用，应该每天从不同的在线商店那里收集手提包的产品信息和价格信息。尽管有些在线商店提供了 API 让你访问所需的信息，但并非所有在线商店都会这么做。所以，网页抓取不可避免。

在本文的示例中，我将使用 Python和 Sparky为 10 个不同的在线商店生成网络蜘蛛（Web spider）。然后，我将使用 Apache Airflow自动化这一过程，这样就不需要人工干预来定期执行整个过程。

源代码和现场演示 Web 应用程序

你可以在GitHub 仓库找到所有相关的源代码，也可以访问在线 Web 应用程序，使用的是网页抓取项目提供的数据。

点击查看原文>

↧

Trending Articles

[奇怪机翻组] 过分色气的深见君 / Yatara Yarashii Fukami-kun - 01 [WebRip] [1080P...

April 16, 2025, 10:37 pm

[ReinForce] 吸血鬼同盟 Dance In The Vampire Bund (BDRip 1920x1080 x264 FLAC)

November 15, 2013, 7:57 am

有人買民雄嘉大博識嗎?(或美銓建設以前的建案)

July 25, 2021, 9:58 am

JVID女郎搞暗黑《延禧》

September 10, 2018, 9:59 am

MAME 0.277 免安裝中文版 - 街機遊戲模擬器

May 8, 2025, 8:10 am

Photoshop.CS6 (免安裝隨身版隨插即用 ) (直接下載)

August 19, 2018, 8:33 am

行星绕恒星边飞边解体令科学家惊心动魄

April 22, 2025, 5:11 pm

【日语无字】春之钟.Haru.no.kane.1985.JAP.vhsrip.NoSub.by.xiongzaixia&vivi

May 5, 2017, 9:42 pm

竹北高鐵第一豪宅若山怎麼了？竹北高鐵第一豪宅若山怎麼了？

March 29, 2021, 12:29 am

df-dferh-01 中国区 Android 安装 Google Play Store 后报错的解决办法

April 24, 2019, 6:56 am

出售: sound mechanics 音響架

November 12, 2019, 6:54 am

关门一家亲：习远平、张澜澜、徐才厚

December 23, 2020, 10:17 pm

[转载]梦瑜伽三梦大法梦瑜伽的修行方法

March 11, 2015, 10:01 am

詐騙猖獗網路名師也中鏢江兆君(小M老師)：學員勿上當！

October 1, 2021, 6:14 am

Windbg 指令與分析之教學筆記

December 3, 2019, 1:25 am

Office 安装管理器，一键下载/安装//打包ISO！支持2016-2024/365全版本！微软官方下载安全可靠！

May 6, 2025, 6:50 am

回顧廿六年前北角地盤籠

March 21, 2019, 9:19 am

【追新番字幕組】★[簡日雙語][ 勇者義彥和被引導的七人 12 最終回 / ゆうしゃヨシヒコとみちびかれしななにん Yusha Yoshihiko to...

December 24, 2016, 6:28 am

C88圣战首日吸引18万人参战！会场工作人员名言汇总

August 14, 2015, 1:25 am

SFC超級任天堂釣魚太郎1.2.3 (海釣太郎) 遊戲+金手指+模擬器！

August 28, 2014, 10:51 pm

© 2025 //www.rssing.com