know-data
发布于 2025-12-14 / 5 阅读
0
0

内容目录体系说明

内容目录体系说明

本站点的博文的内容目录体系的规划与解释。

大数据(Big Data)

核心技术栈

数据采集与接入

  • 第3级:
    • 日志采集(Flume, Filebeat)
    • 流式接入(Kafka, Pulsar)
    • API/数据库同步(Debezium, Canal)
    • IoT 数据接入

数据存储与管理

  • 第3级:
    • 分布式文件系统(HDFS, S3)
    • 列式存储(Parquet, ORC)
    • NoSQL 数据库(HBase, Cassandra)
    • 数据湖(Delta Lake, Iceberg, Hudi)

数据处理与计算

  • 第3级:
    • 批处理(Spark, MapReduce)
    • 流处理(Flink, Spark Streaming)
    • 实时 OLAP(ClickHouse, Doris, Druid)
    • 图计算(GraphX, Neo4j)

数据治理与质量

  • 第3级:
    • 元数据管理(Atlas, DataHub)
    • 数据血缘与 lineage
    • 数据质量监控
    • 数据标准与合规(GDPR, 数据分级)

数据平台与架构

  • 第3级:
    • Lambda/Kappa 架构
    • 数据中台实践
    • 云原生数据平台(AWS Glue, Azure Synapse)
    • 开源 vs 商业方案对比

人工智能(AI)

技术方向

机器学习

  • 第3级:
    • 监督学习(回归、分类)
    • 无监督学习(聚类、降维)
    • 模型评估与调优(交叉验证、超参搜索)
    • 特征工程与选择

深度学习

  • 第3级:
    • 神经网络基础(MLP, CNN, RNN)
    • Transformer 与大模型架构
    • 训练技巧(正则化、优化器、分布式训练)
    • 框架实战(PyTorch, TensorFlow, JAX)

自然语言处理(NLP)

  • 第3级:
    • 文本预处理(分词、嵌入)
    • 预训练模型(BERT, LLaMA, ChatGLM)
    • 指令微调(LoRA, QLoRA)
    • 应用场景(问答、摘要、情感分析)

计算机视觉(CV)

  • 第3级:
    • 图像分类与检测(YOLO, ResNet)
    • 图像生成(GAN, Diffusion Models)
    • 视频理解
    • 多模态融合(CLIP, BLIP)

AI 工程与部署

  • 第3级:
    • 模型压缩与量化(ONNX, TensorRT)
    • 推理服务(FastAPI + TorchServe)
    • MLOps 实践(MLflow, Kubeflow)
    • 边缘 AI 与端侧部署

AI 伦理与前沿

  • 第3级:
    • 可解释性(XAI)
    • 偏见与公平性
    • AIGC 与版权问题
    • 通用人工智能(AGI)探讨

标签体系的设定原则

  1. 标签命名统一:建议使用中文为主(面向中文读者),括号内可加英文关键词便于 SEO。
  2. 避免过度细分:初期可先启用部分高频 3 级标签,根据内容增长逐步扩展。
  3. 支持多标签:一篇文章可同时属于“深度学习”和“NLP”,不必强制单路径。
  4. 导航设计:在网站侧边栏或顶部菜单按 1–2 级组织,点击后筛选出对应 3 级内容。
  5. SEO 优化:每个标签页可生成独立描述,利于搜索引擎收录。

更多议题的探讨,欢迎交流。


评论