Corey Blog

「我感觉自己还能抢救一下」

Hadoop 过时了吗?——从大数据编年史看下一代架构

Hadoop 入门系列 · 第 10 篇(收官)

Hadoop 入门系列 · 第 10/10 篇(收官) 上一篇:《离线数仓实战》 系列第 1 篇:《Hadoop 是什么?》 开头:2026 年了,还要学 Hadoop 吗? Stack Overflow 上「Is Hadoop dead?」的帖子每年都被挖坟。 一边是云厂商推 S3 + EMR / 湖仓一体,一边是面试仍问 HDFS 副本机制、MapReduce Shuf...

搭建一个离线数仓——从原始日志到 BI 报表

Hadoop 入门系列 · 第 9 篇

Hadoop 入门系列 · 第 9/10 篇 上一篇:《HBase 随机读写》 下一篇预告:《Hadoop 过时了吗?》 开头:老板要「昨天网站多少 PV、多少 UV」 产品经理每天上午 9 点要一份报表: 昨日 PV(页面浏览量) 昨日 UV(独立访客数) Top 10 热门页面 原始数据是 Nginx 日志,格式乱七八糟,IP 有爬虫,URL 带参数。...

HBase——HDFS 上的「大表哥」,支持随机读写

Hadoop 入门系列 · 第 8 篇

Hadoop 入门系列 · 第 8/10 篇 上一篇:《Kafka + Hadoop》 下一篇预告:《搭建一个离线数仓》 开头:HDFS 找不到某一行,怎么办? Hive 查 WHERE user_id = 'u001' 要扫描整个分区 —— 几亿行数据,分钟级延迟。 你需要的是:给定 RowKey,毫秒级定位一行 —— 像 MySQL 主键查询,但数据量在 PB 级。 ...

Kafka + Hadoop——让数据流起来,打通任督二脉

Hadoop 入门系列 · 第 7 篇

Hadoop 入门系列 · 第 7/10 篇 上一篇:《Hive SQL 入口》 下一篇预告:《HBase——HDFS 上的大表哥》 开头:日志每秒 10 万条,HDFS 怎么接? 网站访问日志像开闸的水 —— Nginx 每秒写入几万行。HDFS 擅长 大批量写入,不擅长 逐条实时接流。 中间缺一层 数据总线: 1 Nginx 日志 → ??? → HDFS → Hiv...

Hadoop 生态的 SQL 入口——Hive,让你用 SQL 查 HDFS

Hadoop 入门系列 · 第 6 篇

Hadoop 入门系列 · 第 6/10 篇 上一篇:《YARN 资源调度》 下一篇预告:《Kafka + Hadoop——让数据流起来》 开头:数据分析师不想写 Java MapReduce 业务同学只想写: 1 2 3 4 SELECT city, COUNT(*) AS pv FROM page_views WHERE dt = '2026-06-11' GROUP ...

YARN——Hadoop 的操作系统,让应用们和平共处

Hadoop 入门系列 · 第 5 篇

Hadoop 入门系列 · 第 5/10 篇 上一篇:《MapReduce 思想》 下一篇预告:《Hive——让你用 SQL 查 HDFS》 开头:一个集群只能跑一个任务? Hadoop 1.x 时代,MapReduce 框架 独占 整个集群: JobTracker 既管资源又管任务 集群里同时只能跑 MapReduce Hive、Spark、HBase 想进...

MapReduce 思想——分而治之,还是 Google 那套老古董?

Hadoop 入门系列 · 第 4 篇

Hadoop 入门系列 · 第 4/10 篇 上一篇:《HDFS 读写流程》 下一篇预告:《YARN——Hadoop 的操作系统》 开头:1TB 文本里数单词,一台机器要跑 3 天 你有一份 1TB 的网页爬取结果,老板问:每个单词出现了多少次? 单机程序: 1 读 1TB → 统计 → 输出 按 100 MB/s 磁盘读速,光读完就要 近 3 小时,算上 CPU 统...

HDFS 读写流程——一个 300MB 文件的奇幻漂流

Hadoop 入门系列 · 第 3 篇

Hadoop 入门系列 · 第 3/10 篇 上一篇:《HDFS 核心概念》 下一篇预告:《MapReduce 思想》 开头:300MB 的文件,从上传到下载经历了什么? 你在笔记本上有一个 300MB 的日志包,要存进 HDFS,第二天同事要从集群里下载分析。 这 300MB 不会「整包」塞进某一台机器。它会: 被切成 3 片(128 + 128 + 44 MB)...

HDFS 核心概念——把文件切成面包片,分散到你家三台电脑

Hadoop 入门系列 · 第 2 篇

Hadoop 入门系列 · 第 2/10 篇 上一篇:《Hadoop 是什么?》 下一篇预告:《HDFS 读写流程——一个 300MB 文件的奇幻漂流》 开头:一份 10GB 的文件,怎么存进三台旧电脑? 你家里有三台旧电脑,每台只剩 500GB 硬盘。现在有一份 10GB 的视频素材 要保存,还要 防止任意一台硬盘坏掉就全丢。 你会怎么做? 把文件 切成很多小块 ...

Hadoop 是什么?——为什么普通硬盘能拼出「超级电脑」

Hadoop 入门系列 · 第 1 篇

Hadoop 入门系列 · 第 1/10 篇 下一篇预告:《HDFS 核心概念——把文件切成面包片,分散到你家三台电脑》 开头:一台 1TB 硬盘装不下,怎么办? 假设你是一家电商公司的数据工程师。双 11 当天,用户点击、下单、支付、退款……每一秒都在产生日志。 一天下来:500 GB 存一年:180 TB 还要做统计:哪个商品卖得最好?哪个地区退货率最高?...