Corey的博客 | Corey Blog

Hadoop 过时了吗？——从大数据编年史看下一代架构

Hadoop 入门系列 · 第 10 篇（收官）

Hadoop 入门系列 · 第 10/10 篇（收官）上一篇：《离线数仓实战》系列第 1 篇：《Hadoop 是什么？》开头：2026 年了，还要学 Hadoop 吗？ Stack Overflow 上「Is Hadoop dead?」的帖子每年都被挖坟。一边是云厂商推 S3 + EMR / 湖仓一体，一边是面试仍问 HDFS 副本机制、MapReduce Shuf...

Posted by Corey on June 15, 2026

搭建一个离线数仓——从原始日志到 BI 报表

Hadoop 入门系列 · 第 9 篇

Hadoop 入门系列 · 第 9/10 篇上一篇：《HBase 随机读写》下一篇预告：《Hadoop 过时了吗？》开头：老板要「昨天网站多少 PV、多少 UV」产品经理每天上午 9 点要一份报表：昨日 PV（页面浏览量）昨日 UV（独立访客数） Top 10 热门页面原始数据是 Nginx 日志，格式乱七八糟，IP 有爬虫，URL 带参数。...

Posted by Corey on June 14, 2026

HBase——HDFS 上的「大表哥」，支持随机读写

Hadoop 入门系列 · 第 8 篇

Hadoop 入门系列 · 第 8/10 篇上一篇：《Kafka + Hadoop》下一篇预告：《搭建一个离线数仓》开头：HDFS 找不到某一行，怎么办？ Hive 查 WHERE user_id = 'u001' 要扫描整个分区 —— 几亿行数据，分钟级延迟。你需要的是：给定 RowKey，毫秒级定位一行 —— 像 MySQL 主键查询，但数据量在 PB 级。 ...

Posted by Corey on June 13, 2026

Kafka + Hadoop——让数据流起来，打通任督二脉

Hadoop 入门系列 · 第 7 篇

Hadoop 入门系列 · 第 7/10 篇上一篇：《Hive SQL 入口》下一篇预告：《HBase——HDFS 上的大表哥》开头：日志每秒 10 万条，HDFS 怎么接？网站访问日志像开闸的水 —— Nginx 每秒写入几万行。HDFS 擅长大批量写入，不擅长逐条实时接流。中间缺一层数据总线： 1 Nginx 日志 → ??? → HDFS → Hiv...

Posted by Corey on June 12, 2026

Hadoop 生态的 SQL 入口——Hive，让你用 SQL 查 HDFS

Hadoop 入门系列 · 第 6 篇

Hadoop 入门系列 · 第 6/10 篇上一篇：《YARN 资源调度》下一篇预告：《Kafka + Hadoop——让数据流起来》开头：数据分析师不想写 Java MapReduce 业务同学只想写： 1 2 3 4 SELECT city, COUNT(*) AS pv FROM page_views WHERE dt = '2026-06-11' GROUP ...

Posted by Corey on June 11, 2026

YARN——Hadoop 的操作系统，让应用们和平共处

Hadoop 入门系列 · 第 5 篇

Hadoop 入门系列 · 第 5/10 篇上一篇：《MapReduce 思想》下一篇预告：《Hive——让你用 SQL 查 HDFS》开头：一个集群只能跑一个任务？ Hadoop 1.x 时代，MapReduce 框架独占整个集群： JobTracker 既管资源又管任务集群里同时只能跑 MapReduce Hive、Spark、HBase 想进...

Posted by Corey on June 10, 2026

MapReduce 思想——分而治之，还是 Google 那套老古董？

Hadoop 入门系列 · 第 4 篇

Hadoop 入门系列 · 第 4/10 篇上一篇：《HDFS 读写流程》下一篇预告：《YARN——Hadoop 的操作系统》开头：1TB 文本里数单词，一台机器要跑 3 天你有一份 1TB 的网页爬取结果，老板问：每个单词出现了多少次？单机程序： 1 读 1TB → 统计 → 输出按 100 MB/s 磁盘读速，光读完就要近 3 小时，算上 CPU 统...

Posted by Corey on June 9, 2026

HDFS 读写流程——一个 300MB 文件的奇幻漂流

Hadoop 入门系列 · 第 3 篇

Hadoop 入门系列 · 第 3/10 篇上一篇：《HDFS 核心概念》下一篇预告：《MapReduce 思想》开头：300MB 的文件，从上传到下载经历了什么？你在笔记本上有一个 300MB 的日志包，要存进 HDFS，第二天同事要从集群里下载分析。这 300MB 不会「整包」塞进某一台机器。它会：被切成 3 片（128 + 128 + 44 MB）...

Posted by Corey on June 8, 2026

HDFS 核心概念——把文件切成面包片，分散到你家三台电脑

Hadoop 入门系列 · 第 2 篇

Hadoop 入门系列 · 第 2/10 篇上一篇：《Hadoop 是什么？》下一篇预告：《HDFS 读写流程——一个 300MB 文件的奇幻漂流》开头：一份 10GB 的文件，怎么存进三台旧电脑？你家里有三台旧电脑，每台只剩 500GB 硬盘。现在有一份 10GB 的视频素材要保存，还要防止任意一台硬盘坏掉就全丢。你会怎么做？把文件切成很多小块 ...

Posted by Corey on June 7, 2026

Hadoop 是什么？——为什么普通硬盘能拼出「超级电脑」

Hadoop 入门系列 · 第 1 篇

Hadoop 入门系列 · 第 1/10 篇下一篇预告：《HDFS 核心概念——把文件切成面包片，分散到你家三台电脑》开头：一台 1TB 硬盘装不下，怎么办？假设你是一家电商公司的数据工程师。双 11 当天，用户点击、下单、支付、退款……每一秒都在产生日志。一天下来：500 GB 存一年：180 TB 还要做统计：哪个商品卖得最好？哪个地区退货率最高？...

Posted by Corey on June 6, 2026

Corey Blog