این دوره به شما میآموزد که چگونه از پنجرهسازی، واترمارکینگ و پیوستن به عملیاتهای جریان داده در Spark برای موارد استفاده خاص خود استفاده کنید.
آنچه خواهید آموخت:
جریان ساختیافته در آپاچی اسپارک دادههای بلادرنگ را بهعنوان جدولی در نظر میگیرد که دائماً اضافه میشود. در چنین مدل پردازش جریانی، بار پردازش جریان از کاربر به سیستم منتقل میشود و پردازش دادههای جریانی با Spark را بسیار آسان و شهودی میکند. Apache Spark از طیف وسیعی از عملیات پنجرهسازی و پیوستن به جریان دادهها با استفاده از زمان پردازش و زمان رویداد پشتیبانی میکند. در این دوره آموزشی، Windowing and Join Operations on Streaming Data with Apache Spark on Databricks، تفاوت بین عملیات بدون حالت که روی یک موجودیت جریان واحد عمل میکنند و عملیات stateful که بر روی چندین موجودیت انباشته شده در یک جریان عمل میکنند، یاد خواهید گرفت. سپس، انواع مختلف پنجرههای پشتیبانی شده توسط Apache Spark را بررسی خواهید کرد که شامل پنجرههای غلتشی، پنجرههای کشویی و پنجرههای سراسری میشود. در مرحله بعد، تفاوتهای بین زمان رویداد، زمان جذب و زمان پردازش را درک خواهید کرد و خواهید دید که چگونه میتوانید عملیات پنجرهسازی را با استفاده از زمان پردازش و همچنین زمان رویداد انجام دهید. در طول مسیر، به یک خوشه HDInsight Kafka متصل خواهید شد تا رکوردهای جریان ورودی خود را بخوانید. سپس از واترمارک برای مقابله با دادههای دیررس استفاده خواهید کرد و خواهید دید که چگونه میتوانید از واترمارک برای محدود کردن حالتی که Apache Spark ذخیره میکند استفاده کنید. در نهایت، شما عملیات اتصال را با استفاده از استریمها انجام خواهید داد و انواع اتصالاتی را که Spark برای اتصالات استاتیک-استریم و اتصالات جریان-استریم پشتیبانی میکند، کشف خواهید کرد. همچنین خواهید دید که چگونه میتوانید برای خواندن سوابق به Azure Event Hubs متصل شوید. پس از اتمام این دوره، مهارتها و دانش عملیات پنجرهسازی و پیوستن به عملیات مورد نیاز برای شناسایی زمان انجام این تبدیلهای قدرتمند و نحوه انجام آنها را خواهید داشت.
نمونه ویدیوی آموزشی ( زیرنویسها جدا از ویدیو است و میتوانید آنرا نمایش ندهید ) :
[ENGLISH]
01 Course Overview [2mins]
01-01 Course Overview [2mins]
02 Performing Windowing Operations on Data [38mins]
02-01 Version Check [0mins]
02-02 Prerequisites and Course Outline [2mins]
02-03 Stateless and Stateful Transformations [5mins]
02-04 Tumbling, Sliding, and Global Windows [5mins]
02-05 Event Time, Ingestion Time, and Processing Time [6mins]
02-06 Demo: Reading Streaming Data from a File Source [4mins]
02-07 Demo: Operations Using Global Windows [4mins]
02-08 Demo: Operations Using Tumbling Windows [3mins]
02-09 Demo: More Operations Using Tumbling Windows [5mins]
02-10 Demo: Operations Using Sliding Windows [4mins]
03 Exploring Aggregations Using Watermarks [52mins]
03-01 Demo: Provisioning an HDInsight Kafka Cluster [6mins]
03-02 Demo: Configuring Kafka to Avertise IP Addresses [3mins]
03-03 Demo: Accessing the Kafka Broker, Zookeeper Hostname, and IP Addresses [2mins]
03-04 Demo: Creating a Kafka Topic and Setting up a Producer [3mins]
03-05 Demo: Peering the Kafka Cluster with the Databricks Cluster [3mins]
03-06 Demo: Tumbling Windows Using Event Time [6mins]
03-07 Demo: Sliding Windows Using Event Time [1mins]
03-08 Watermarks and Late Data [3mins]
03-09 Configuring Watermarks in Spark [4mins]
03-10 Watermarking to Limit State [5mins]
03-11 Demo: Azure Event Hubs as a Streaming Source [3mins]
03-12 Demo: Publishing Events to Azure Event Hubs [5mins]
03-13 Demo: Configuring Watermarks on Streams [8mins]
04 Performing Join Operations on Data [30mins]
04-01 Streaming Joins [5mins]
04-02 Demo: Streaming-static Joins: Full Outer Join [4mins]
04-03 Demo: Streaming-static Joins: Other Join Operations [5mins]
04-04 Demo: Setting up Multiple Streaming Sources [4mins]
04-05 Demo: Streaming-streaming Joins [4mins]
04-06 Demo: Inner Joins with Watermarks [4mins]
04-07 Demo: Left Outer and Left Semi Joins with Watermarks [3mins]
04-08 Summary and Further Study [1mins]
[فارسی]
01 بررسی اجمالی دوره [2 دقیقه]
01-01 بررسی اجمالی دوره [2 دقیقه]
02 انجام عملیات پنجره روی داده [38 دقیقه]
02-01 بررسی نسخه [0 دقیقه]
02-02 پیش نیازها و خلاصه دوره [2 دقیقه]
02-03 دگرگونیهایبی تابعیت و دارای وضعیت [5 دقیقه]
02-04 غلت زدن، کشویی، و ویندوز جهانی [5 دقیقه]
02-05 زمان رویداد، زمان مصرف و زمان پردازش [6 دقیقه]
02-06 نسخهی نمایشی- خواندن جریان دادهها از منبع فایل [4 دقیقه]
02-07 نسخهی نمایشی- عملیات با استفاده از ویندوز جهانی [4 دقیقه]
02-08 نسخهی نمایشی- عملیات با استفاده از Windows Tumbling [3 دقیقه]
02-09 نسخهی نمایشی- عملیات بیشتر با استفاده از Windows Tumbling [5 دقیقه]
02-10 نسخهی نمایشی- عملیات با استفاده از ویندوز کشویی [4 دقیقه]
03 کاوش تجمعات با استفاده از واترمارک [52 دقیقه]
03-01 نسخهی نمایشی- ارائه یک خوشه کافکا HDInsight [6 دقیقه]
03-02 نسخهی نمایشی- پیکربندی کافکا برای جلوگیری از آدرسهای IP [3 دقیقه]
03-03 نسخهی نمایشی- دسترسی به کارگزار کافکا، نام میزبان باغ وحش و آدرسهای IP [2 دقیقه]
03-04 نسخهی نمایشی- ایجاد یک موضوع کافکا و راه اندازی یک تهیه کننده [3 دقیقه]
03-05 نسخهی نمایشی- بررسی خوشه کافکا با خوشه Databricks [3 دقیقه]
03-06 نسخهی نمایشی- کم کردن ویندوز با استفاده از زمان رویداد [6 دقیقه]
03-07 نسخهی نمایشی- ویندوز کشویی با استفاده از زمان رویداد [1 دقیقه]
03-08 واترمارک و دادههای دیرهنگام [3 دقیقه]
03-09 پیکربندی واترمارک در Spark [4 دقیقه]
03-10 واترمارک تا حالت محدود [5 دقیقه]
03-11 نسخهی نمایشی- Azure Event Hubs به عنوان منبع جریان [3 دقیقه]
03-12 نسخهی نمایشی- انتشار رویدادها در هاب رویداد Azure [5 دقیقه]
03-13 نسخهی نمایشی- پیکربندی واترمارک در جریانها [8 دقیقه]
04 انجام عملیات پیوستن روی داده [30 دقیقه]
04-01 پیوستن به جریان [5 دقیقه]
04-02 نسخهی نمایشی- اتصالات استاتیکی جریانی- پیوستن کامل بیرونی [4 دقیقه]
04-03 نسخهی نمایشی- پیوستن به جریان استاتیک- سایر عملیات پیوستن [5 دقیقه]
04-04 نسخهی نمایشی- راه اندازی چندین منبع جریانی [4 دقیقه]
04-05 نسخه نمایشی- پیوستن به پخش جریانی [4 دقیقه]
04-06 نسخهی نمایشی- اتصالات داخلی با واترمارک [4 دقیقه]
04-07 نسخهی نمایشی- اتصالات بیرونی و نیمه چپ چپ با واترمارک [3 دقیقه]
04-08 خلاصه و مطالعه بیشتر [1 دقیقه]
جانانی دارای مدرک کارشناسی ارشد از استنفورد است و بیش از 7 سال در گوگل کار کرده است. او یکی از مهندسان اصلی Google Docs بود و دارای 4 پتنت برای فریمورک ویرایش مشارکتی بلادرنگ آن است. جانانی پس از گذراندن سالها کار در فناوری در منطقه خلیج، نیویورک و سنگاپور در شرکتهایی مانند مایکروسافت، گوگل و فلیپکارت، سرانجام تصمیم گرفت عشق خود به فناوری را با علاقهاش به تدریس ترکیب کند. او اکنون یکی از بنیانگذاران Loonycorn است، یک استودیوی محتوا که بر ارائه محتوای با کیفیت بالا برای توسعه مهارتهای فنی متمرکز است. Loonycorn در حال کار بر روی توسعه یک موتور (پتنت ثبت شده) برای خودکارسازی انیمیشنها برای ارائهها و محتوای آموزشی است.