HBase在单Column和多Column情况下批量Put的性能对比分析

针对HBase在单column family单column qualifier和单column family多column qualifier两种场景下,分别批量Put写入时的性能对比情况,下面是结合HBase的源码来简单分析解释这一现象。 (更多…)

HBase一次慢查询请求的问题排查与解决过程

以下是我们对HBase集群一次慢查询请求问题的排查解决过程。 (更多…)

淘宝商家业务事业部-数据部 隆重招贤纳士!

没赶上20年前关系型数据库系统的狂潮,不要紧!
没赶上8年前分布式数据处理系统的突飞猛进,不要紧!
但是现在摆在大家面前的大数据应用浪潮,你不珍惜,那就太可惜了!
未来是你们的,也是我们的,但终究是大数据的!
如果你精通海量数据处理技术or精通数据可视化技术or精通数据挖掘及算法技术or网站和前端开发牛人,对业务及数据敏感,那么请加入淘宝商家数据部吧!
我们的项目神秘、性感而且充满挑战,和我们一起在AWS+Big Data平台的建设中找寻自己的梦想吧!
If not now, when?!  If not you, who?!  此时此刻,非你莫属!

您可以发送简历到adjob@taobao.com,邮件标题“姓名”+应聘+“职位名称”即可。

———————————————–产品相关职位—————————————-

部门最新开放“产品经理”、“运营专员”相关职位

阿里巴巴集团最强的能力之一是商家端的能力,阿里巴巴集团未来十年战略是“数据分享第一平台”。如果你有优秀的电商经验,或者是顶尖的数据人才,如果你还想站在浪潮之巅创造大数据奇迹,欢迎加入我们~!

我们有影响400万卖家的数据驱动的产品,也在创造前所未有的云数据平台产品,如果你加入,那么你将会负责这些产品的设计!记得这些产品一起在为当前中国全年零售总额的10%服务!

然而我们对阿里巴巴巨大数据财富的挖掘,才刚刚启程,用户对我们产品的渴求非常强烈,如果你是如下贤能之一,那么我们热切盼望与你共事:

【职位名称】:产品经理-商家数据部

  [工作地点]:北京、杭州

    • 贤能一(云计算产品专家)
    1. 熟悉服务器、网络和存储设备、数据库技术
    2. 悉云计算IAAS系统、云存储系统、云数据库系统、Hadoop系统
    3. 了解数据挖掘技术
    4. 在以上相关行业工作3年以上
    • 贤能二(数据产品专家)
    1. 负责设计过数据分析、数据挖掘、在线数据产品,有良好的数据可视化经验
    2. 有深入电商、金融、电信等行业业务理解背景
    3. 了解数据挖掘技术,有上述行业数据挖掘工作经验更佳
    4. 在以上相关行业工作3年以上
    • 贤能三(电商IT产品专家)
    1. 负责设计过电商IT系统产品,如ERP、财务等
    2. 深入了解电商IT系统架构和部署
    3. 深入理解电商业务
    4. 在以上相关行业工作3年以上

【职位名称】:运营专员-商家数据部

  [职位描述]:

    1. 独立负责数据部各业务线的运营工作,并根据业务发展,与产品经理共同制定产品的目标和规划
    2. 定期巡店,了解商家痛点;根据商家痛点,挖掘出产品改进点,并跟进落实
    3. 细化目标制定相应的季度工作计划,并独立制定产品的运营策略,策划运营活动,完成产品目标
    4. 为内、外各类合作伙伴提供产品资料和培训,建立并优化产品运营流程并形成知识积累;对客户及合作伙伴提出的需求和问题进行整理和反馈,并跟进落实

  [工作地点]:北京

  [职位要求]:

    1. 出色的逻辑分析能力,数据分析能力和资源整合能力;优秀的文字表达能力
    2. 熟悉卖家经营环节,了解商家痛点
    3. 具备良好的组织、协调、沟通能力,善于调动各个相关团队的积极性;能够实际解决问题及抗压
    4. 积极乐观,勇于担当,充满激情

———————————-技术相关职位————————————————

各类技术职位持续开放热招中

招贤职位列表如下(明细见后文):

  • 数据挖掘技术专家
  • 高级数据开发/数据仓库工程师
  • 高级前端开发工程师
  • 高级Java开发工程师
  • 高级C++/Java开发工程师

 

【职位名称】:数据挖掘技术专家-商家数据部

[职位描述]:

  • 对商家经营中的问题进行建模,并通过聚石塔算法平台和产品帮助商家的成长
  • 基于淘宝的海量数据,搭建聚石塔算法平台并服务于ISV和商家
  • 进行电子商务领域的用户行为,推荐算法的研究与实现

[工作地点]:北京

[职位要求]:

  • 计算机(机器学习、人工智能等方向)、数学、统计或相关专业本科及以上学历,并且至少有1年相关专业工作背景
  • 掌握常用机器学习,数据挖掘方法,并且在工作中有实际使用这些方法的经验
  • 有推荐系统,计算广告,用户行为分析,大数据处理方面经验者优先考虑
  • 熟悉Unix/Linux开发环境,能应用Python,Shell,Perl等其中一种脚本语言
  • 有较强的分析和解决问题能力,较强的工作激情

【职位名称】:高级数据开发/数据仓库工程师-商家数据部

[职位描述]:

  • 基于海量数据的数据仓库建设、数据应用开发
  • 大型分布式云计算平台应用开发(Hadoop/Hive/Hbase)

[工作地点]:北京

[职位要求]:

  • 计算机或相关专业本科以上学历
  • 具有丰富的数据仓库开发经验,有1年以上基于Hadoop/Storm/HIVE/Hbase等应用开发经验,对分布式计算、数据仓库理论有深刻理解
  • 对Hadoop、Hive、Storm等源码有研究优先
  • 精通JAVA或Python,有并发应用或者分布式应用软件开发经验优先
  • 熟悉Oracle/Teradata/Mysql中的一种,BO/BIEE等报表工具中的一种
  • 良好的系统分析、架构设计能力
  • 对数据敏感、对新技术敏感,有数据挖掘技能者优先

【职位名称】:高级前端开发工程师-商家数据部

[职位描述]:

  • 负责商家数据部重要产品的业务研发
  • 参与商家数据部整体前端框架的设计和研发,这里就是你自我成长和历练之地

[工作地点]:北京

[职位要求]:

  • 精通Web前端技术, 包括HTML/CSS/Javascript等,有良好的计算机基础
  • 熟悉JS对象编程,有丰富的基于Ajax或Json的开发经验,对浏览器兼容性问题有较深入的了解
  • 对 NodeJS / Html5 及其相关技术有一定了解
  • 技术视野广阔, 乐于不断学习新知识与新技术, 并能应用到实际工作中
  • 学习能力强,沟通能力好,对互联网最新技术有关注并尝试应用,追求编写优雅的代码,从技术趋势和思路上能影响技术团队

【职位名称】:Java高级开发工程师-商家数据部

[职位描述]:

  • 构建和开发在海量数据下多维分析的数据分析平台
  • 负责相关系统的设计和核心模块开发工作;

[工作地点]:北京

[职位要求]:

  • 2年及以上JAVA开发的经验,熟练掌握JAVA的WEB编程技术,对各种开源的框架如Spring、Hibernate等有深入的应用和优化经验
  • 有良好计算机网络和数据结构基础,理解IO、多线程等基础知识,对JVM原理有一定的了解
  • 掌握大型数据库(Oracle、MySql);对sql优化有丰富的经验
  • 学习能力强,适应能力好,对互联网或J2EE应用开发的最新技术有关注并尝试应用,追求编写优雅的代码,从技术趋势和思路上能影响技术团队
  • 计算机或相关专业,本科以上学历

[符合以下条件者优先]:

  • 对RMDB及NOSQL数据库有一定的应用,可以根据性能和特点,在特定的数据环境下选择合适的数据存储层
  • 掌握OLAP的基本概念及相关应用,对多维分析及MDX熟练掌握
  • 熟悉分布式系统的设计和应用,熟悉分布式缓存、消息等机制;并能合理应用分布式技术,解决问题;

 【职位名称】:高级C++/Java开发工程师- 商家数据部

[职位描述]:

  • 打造支撑海量数据的实时计算服务
  • 大数据高性能分布式处理系统研发

[工作地点]:北京

[职位要求]:

  • 熟悉脚本语言(如php/shell/python/perl,至少一种)
  • 精通Linux平台下C/C++或者Java开发,精通性能调优
  • 熟悉多线程模型编程,熟悉网络编程和IO模型
  • 熟练掌握各类常用数据结构和相关算法
  • 较强的工作责任心和良好的沟通协调能力,能在压力下独立解决问题
  • 有钻研精神,对技术、大数据充满热情,有团队合作精神

[符合以下条件者优先]

  • 精通分布式系统(如Hadoop,Hive,Storm等)
  • 精通Nosql(如Redis,Hbase等)
  • 精通高并发大数据量的数据库SQL开发,深入了解数据库内部存储
  • 精通MOLAP相关技术
  • 热衷开源社区代码贡献

Storm入门教程 第五章 一致性事务

第五章 一致性事务

Storm是一个分布式的流处理系统,利用anchor和ack机制保证所有tuple都被成功处理。如果tuple出错,则可以被重传,但是如何保证出错的tuple只被处理一次呢?Storm提供了一套事务性组件Transaction Topology,用来解决这个问题。

(更多…)

storm入门教程 第四章 消息的可靠处理

4.1 简介

storm可以确保spout发送出来的每个消息都会被完整的处理。本章将会描述storm体系是如何达到这个目标的,并将会详述开发者应该如何使用storm的这些机制来实现数据的可靠处理。

(更多…)

Storm入门教程 第三章 Storm安装部署步骤

本文以Twitter Storm官方Wiki为基础,详细描述如何快速搭建一个Storm集群,其中,项目实践中遇到的问题及经验总结,在相应章节以“注意事项”的形式给出。 (更多…)

Storm入门教程 第二章 构建Topology

2.1 Storm基本概念

在运行一个Storm任务之前,需要了解一些概念:

  1. Topologies
  2. Streams
  3. Spouts
  4. Bolts
  5. Stream groupings
  6. Reliability
  7. Tasks
  8. Workers
  9. Configuration

(更多…)

storm入门教程 第一章 前言

1.1   实时流计算

互联网从诞生的第一时间起,对世界的最大的改变就是让信息能够实时交互,从而大大加速了各个环节的效率。正因为大家对信息实时响应、实时交互的需求,软件行业除了个人操作系统之外,数据库(更精确的说是关系型数据库)应该是软件行业发展最快、收益最为丰厚的产品了。记得十年前,很多银行别说实时转账,连实时查询都做不到,但是数据库和高速网络改变了这个情况。

随着互联网的更进一步发展,从Portal信息浏览型到Search信息搜索型到SNS关系交互传递型,以及电子商务、互联网旅游生活产品等将生活中的流通环节在线化。对效率的要求让大家对于实时性的要求进一步提升,而信息的交互和沟通正在从点对点往信息链甚至信息网的方向发展,这样必然带来数据在各个维度的交叉关联,数据爆炸已不可避免。因此流式处理加NoSQL产品应运而生,分别解决实时框架和数据大规模存储计算的问题。

(更多…)

一淘数据部-Linux上进程的表示以及入门

本博客会陆续更新一淘数据部 各位技术同学分享的资料。
本次分享的内容来自太奇同学:
受众:
对Linux系统感兴趣的同学。
简介:

1.理解linux系统上进程的原理以及实现
2. 信号处理简述
3. 了解内存管理初步知识
4. 打开通向linux内核的大门

文件下载:linux进程的表示及入门-PDF文件

一淘数据部-基数估计的概率算法

本博客会陆续更新一淘数据部 各位技术同学分享的资料。
本次分享的内容来自夜沨同学:
受众:
对基数 概率算法感兴趣的同学。
简介:
内容:
1、基数的概念、应用、传统计算方式极其局限;

2、三种计算基数的概率算法、相关数理分析、比较及实现重点

文件下载:基数估计的概率算法及uv计算中的应用-PDF文件