DBX产品矩阵/堆栈
https://docs.databricks.com/en/index.html
Data Engineering // 各种数据工程的基础设施
- delta live table 管理实时数据的pipeline framework.
- structured streaming + apache spark
- notebooks + elastic compute + spark sql + photon
- git folders (visual git client)
- DBFS
- 这个东西感觉很重要,应该是把Azure/GCP/AWS细节屏蔽了。
- 这个东西对于简化数据管理很有用。
- 另外就是大模型以及模型训练数据这些非结构化数据都需要以文件形式呈现。
Generative AI & LLMs:
- 可以在上面测试各种模型,并且评估模型的效果(MLFlow)
- vector search db以及构建RAG app
Machine Learning:
- 整了一套机器学习服务框架,从训练到评估到上线,以及效果反馈收集
- 训练数据,模型结果,这些都是通过unity catalog管理起来
- 提供了一系列机器学习的辅助工具, AutoML, Notebooks, MLFlow, Monitoring, MLOps
- 看上去也可以用DL来做训练 Deep learning | Databricks on AWS
- 对于DL这种非结构化的训练数据是直接放在DBFS上的
Model Serving:
- 可以部署开源和私有模型,以及自己的模型
- 可以提供类似OpenAI一样的API serving
- 当前serving有点类似lambda function,但是执行资源有限制
Data Warehousing // spark sql, mv etc.
Delta Lake // unity catalog & data governance.