一淘数据部数据分析与开发-数据开发技术概述

本博客会陆续更新一淘数据部 各位技术同学分享的资料。
本次分享的内容来自冷川同学:
受众:
对海量数据计算感兴趣,想系统了解数据开发技术,以及平时需要使用数据相关技术的同学
简介:
本节课是数据开发技术的入门课程,结合大淘宝数据平台数据平台及开发技术的演进过程,详细讲解目前在用的主要数据开发技术,并且为大家呈现出目前主要的数据开发技术框架图,最后在未来超海量数据的大背景下,数据同学应该主动结合系统痛点进行技术应用

文件下载:数据开发技术-冷川

Hadoop安装端口已经被占用问题的解决方法

在测试安装hadoop的时候,通常会遇到大家在同一批机器上安装hadoop的情况,这样的话会有端口已经被占用导致安装不成功的情况出现。

Hadoop日志会提示这种错误:

ERROR org.apache.hadoop.mapred.TaskTracker: Can not start task tracker because java.net.BindException: Address already in use

在这种情况下,最好的方法就是在配置环境时把所有的端口配置都进行修改。

(更多…)

Hadoop超级安装手册

安装Hadoop并不困难,官方文档也给的还算详细。最近同事练习安装还是会遇到一些问题,最后我们整理出来傻瓜版安装手册,帮助你0基础成功。

北京数据平台荣誉出品微笑    特别感谢靳伟,暮霜同学帮忙整理出来这么傻瓜版的hadoop安装教程。

 

(更多…)

Map/Reduce中的静态块的使用

使用Map/Reduce处理海量数据过程中,更加要注意对于静态块的使用。 (更多…)

数据分组在hadoop中的实现方法

在实际的业务生产中,由于使用mysql数据库,经常会面临分库来解决大量数据的查询问题。数据从hadoop产出,需要按照要求的分库规则把数据分成若干份(如:按照每1000个id为一个库,模256分成256个库),然后根据名称进行入库操作。 (更多…)