内容目录体系说明
本站点的博文的内容目录体系的规划与解释。
大数据(Big Data)
核心技术栈
数据采集与接入
- 第3级:
- 日志采集(Flume, Filebeat)
- 流式接入(Kafka, Pulsar)
- API/数据库同步(Debezium, Canal)
- IoT 数据接入
数据存储与管理
- 第3级:
- 分布式文件系统(HDFS, S3)
- 列式存储(Parquet, ORC)
- NoSQL 数据库(HBase, Cassandra)
- 数据湖(Delta Lake, Iceberg, Hudi)
数据处理与计算
- 第3级:
- 批处理(Spark, MapReduce)
- 流处理(Flink, Spark Streaming)
- 实时 OLAP(ClickHouse, Doris, Druid)
- 图计算(GraphX, Neo4j)
数据治理与质量
- 第3级:
- 元数据管理(Atlas, DataHub)
- 数据血缘与 lineage
- 数据质量监控
- 数据标准与合规(GDPR, 数据分级)
数据平台与架构
- 第3级:
- Lambda/Kappa 架构
- 数据中台实践
- 云原生数据平台(AWS Glue, Azure Synapse)
- 开源 vs 商业方案对比
人工智能(AI)
技术方向
机器学习
- 第3级:
- 监督学习(回归、分类)
- 无监督学习(聚类、降维)
- 模型评估与调优(交叉验证、超参搜索)
- 特征工程与选择
深度学习
- 第3级:
- 神经网络基础(MLP, CNN, RNN)
- Transformer 与大模型架构
- 训练技巧(正则化、优化器、分布式训练)
- 框架实战(PyTorch, TensorFlow, JAX)
自然语言处理(NLP)
- 第3级:
- 文本预处理(分词、嵌入)
- 预训练模型(BERT, LLaMA, ChatGLM)
- 指令微调(LoRA, QLoRA)
- 应用场景(问答、摘要、情感分析)
计算机视觉(CV)
- 第3级:
- 图像分类与检测(YOLO, ResNet)
- 图像生成(GAN, Diffusion Models)
- 视频理解
- 多模态融合(CLIP, BLIP)
AI 工程与部署
- 第3级:
- 模型压缩与量化(ONNX, TensorRT)
- 推理服务(FastAPI + TorchServe)
- MLOps 实践(MLflow, Kubeflow)
- 边缘 AI 与端侧部署
AI 伦理与前沿
- 第3级:
- 可解释性(XAI)
- 偏见与公平性
- AIGC 与版权问题
- 通用人工智能(AGI)探讨
标签体系的设定原则
- 标签命名统一:建议使用中文为主(面向中文读者),括号内可加英文关键词便于 SEO。
- 避免过度细分:初期可先启用部分高频 3 级标签,根据内容增长逐步扩展。
- 支持多标签:一篇文章可同时属于“深度学习”和“NLP”,不必强制单路径。
- 导航设计:在网站侧边栏或顶部菜单按 1–2 级组织,点击后筛选出对应 3 级内容。
- SEO 优化:每个标签页可生成独立描述,利于搜索引擎收录。
更多议题的探讨,欢迎交流。