Databricksは、カルフォルニア州立大学バークレー校において、CEO兼共同設立者のアリ・ゴディシ(Ali Ghodsi)氏をはじめ、データとAIなどを研究するOSSの分散処理フレームワーク「Apache Spark」のクリエイター20人により、2013年にサンフランシスコで創業した。
1. データスキュー対策の基本 ─ SaltingとCo-partitioningの考え方 Spark SQLのボトルネックの一つがデータスキュー(データ偏り)です。 特定のキーにデータが集中すると、あるExecutorだけが重い処理を担当し、全体の処理が遅延します。 この問題を解消する代表 ...
『ゼロから触ってわかった!Azure × Databricksでつくる次世代データ基盤 非公式ガイド ―』 クラウドでデータ基盤を作ろうとすると、Azure・Storage・ネットワーク・権限・セキュリティ…そこに Databricks が加わった瞬間、一気に難易度が跳ね上がります。