首页建站教程正文

我要投稿

hadoop中实现java网络爬虫(示例讲解)

站长建站教程

2025-05-29 0 55

这一篇网络爬虫的实现就要联系上大数据了。在前两篇java实现网络爬虫和heritrix实现网络爬虫的基础上，这一次是要完整的做一次数据的收集、数据上传、数据分析、数据结果读取、数据可视化。

需要用到

cygwin：一个在windows平台上运行的类unix模拟环境，直接网上搜索下载，并且安装；

hadoop：配置hadoop环境，实现了一个分布式文件系统（hadoop distributed file system），简称hdfs，用来将收集的数据直接上传保存到hdfs，然后用mapreduce分析；

eclipse：编写代码，需要导入hadoop的jar包，以可以创建mapreduce项目；

jsoup：html的解析jar包，结合正则表达式能更好的解析网页源码；

—–>

目录：

1、配置cygwin

2、配置hadoop黄静

3、eclipse开发环境搭建

4、网络数据爬取（jsoup）

——–>

1、安装配置cygwin

从官方网站下载cygwin 安装文件，地址：https://cygwin.com/install.html

下载运行后进入安装界面。

安装时直接从网络镜像中下载扩展包，至少需要选择ssh和ssl支持包

安装后进入cygwin控制台界面，

运行ssh-host-config命令，安装ssh

输入：no，yes，ntsec，no，no

注意：win7下需要改为yes，yes，ntsec，no，yes，输入密码并确认这个步骤

完成后会在windows操作系统中配置好一个cygwin sshd服务，启动该服务即可。

然后要配置ssh免密码登陆

重新运行cygwin。

执行ssh localhost，会要求使用密码进行登陆。

使用ssh-keygen命令来生成一个ssh密钥，一直回车结束即可。

生成后进入.ssh目录，使用命令：cp id_rsa.pub authorized_keys 命令来配置密钥。

之后使用exit退出即可。

重新进入系统后，通过ssh localhost就可以直接进入系统，不需要再输入密码了。

2、配置hadoop环境

修改hadoop-env.sh文件，加入jdk安装目录的java_home位置设置。

收藏 (0) 打赏

感谢您的支持，我会继续努力的!

打开微信/支付宝扫一扫，即可进行扫码打赏哦，分享从这里开始，精彩与您同在

点赞 (0)

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

快网idc优惠网建站教程 hadoop中实现java网络爬虫(示例讲解) https://www.kuaiidc.com/114373.html

Hadoop Java 网络爬虫

站长

防止未登录用户操作—基于struts2拦截器的简单实现

面试官：不会有人不懂类加载器与双亲委派模型吧？

相关文章

ASP.NET本地开发时常见的配置错误及解决方法？

ASP.NET本地开发时常见的配置错误及解决方法？

建站教程

站长

5个月前 176

ASP.NET自助建站系统的数据库备份与恢复操作指南

ASP.NET自助建站系统的数据库备份与恢复操作指南

建站教程

站长

5个月前 88

个人网站服务器域名解析设置指南：从购买到绑定全流程

个人网站服务器域名解析设置指南：从购买到绑定全流程

建站教程

站长

5个月前 85

个人网站搭建：如何挑选具有弹性扩展能力的服务器？

个人网站搭建：如何挑选具有弹性扩展能力的服务器？

建站教程

站长

5个月前 106

猜你喜欢

发表评论

暂无评论

如遇问题，请联系客服咨询在线客服
联系客服请注明来意高端主题开发
微信公众号

高端主题
返回顶部