Hadoop实时计算工程师Hadoop开发实时计算大数据平台
上海
<li>负责公司大数据平台的Hadoop实时计算模块开发与维护,参与架构设计和性能优化。通过对Hadoop集群的参数调优,使数据处理速度提升了30%,集群资源利用率提高了20%。</li><li>主导实时数据处理项目,对接业务部门需求,设计并实现了多个实时计算任务。例如,针对用户行为数据分析任务,采用Spark Streaming结合Hadoop进行实时数据清洗、转换和分析,每天处理数据量达10TB,为业务决策提供了及时准确的数据支持。</li><li>与团队成员协作,解决Hadoop实时计算过程中遇到的各种技术难题,如数据倾斜、任务调度冲突等。通过优化数据分区策略和任务调度算法,成功解决了多个复杂问题,保障了系统的稳定运行。</li><li>参与技术选型和新技术引入评估,跟踪行业最新技术动态,为公司技术发展提供建议。引入Flink进行实时计算性能对比测试,评估其在公司业务场景下的适用性,为后续技术升级提供了参考依据。</li>
上海XX信息技术有限公司 - 大数据技术部信息技术服务
2017.072019.06
大数据开发工程师大数据开发Hadoop应用实时数据处理
上海
<li>参与公司大数据平台的搭建与优化,主要负责Hadoop生态组件的集成与应用。在Hadoop集群扩容项目中,通过合理规划节点配置和数据分布,使集群存储容量提升了50%,满足了业务快速增长的数据存储需求。</li><li>负责实时数据采集与传输模块开发,使用Flume进行日志数据实时采集,Kafka进行数据缓冲和流式传输。优化Flume采集策略,减少数据丢失率至0.1%以下,保障了实时数据的完整性。</li><li>开发实时计算任务,基于Hadoop MapReduce和Spark进行离线与实时数据处理。例如,实现用户画像实时更新任务,每天处理用户行为数据5TB,更新用户标签1000+个,为精准营销提供数据支持。</li><li>进行数据质量监控与治理,建立数据质量评估体系。通过编写数据校验脚本,对实时计算结果进行质量检查,及时发现并修正数据错误,使数据准确率达到99.5%以上。</li>