ما هو RDD في سكالا؟
ما هو RDD في سكالا؟

فيديو: ما هو RDD في سكالا؟

فيديو: ما هو RDD في سكالا؟
فيديو: Что такое big data hadoop? Лучший big data hadoop учебник для начинаю... 2024, أبريل
Anonim

مجموعات البيانات الموزعة المرنة ( RDD ) هي بنية بيانات أساسية لـ Spark. إنها مجموعة موزعة ثابتة من الكائنات. RDDs يمكن أن تحتوي على أي نوع من أنواع Python أو Java أو سكالا كائنات ، بما في ذلك الفئات المعرفة من قبل المستخدم. رسميا ، RDD هي مجموعة من السجلات للقراءة فقط ومقسمة.

السؤال أيضًا هو ، ما هو الفرق بين RDD و DataFrame؟

RDD – RDD عبارة عن مجموعة موزعة من عناصر البيانات المنتشرة عبر العديد من الأجهزة في ال العنقودية. RDDs هي مجموعة من كائنات Java أو Scala تمثل البيانات. داتافريم - أ داتافريم عبارة عن مجموعة موزعة من البيانات منظمة في أعمدة مسماة. إنه من الناحية المفاهيمية يساوي الجدول في قاعدة بيانات علائقية.

علاوة على ذلك ، كيف يتم توزيع RDD؟ مرن وزعت مجموعات البيانات ( RDDs ) هم وزعت مجموعة من الأشياء ، والتي يتم تخزينها في الذاكرة أو على أقراص من آلات مختلفة من الكتلة. واحد RDD يمكن تقسيمها إلى أقسام منطقية متعددة بحيث يمكن تخزين هذه الأقسام ومعالجتها على أجهزة مختلفة من الكتلة.

كيف يعمل شرارة RDD؟

RDDs في شرارة لديك مجموعة من السجلات التي تحتوي على أقسام. RDDs في شرارة تنقسم إلى أجزاء منطقية صغيرة من البيانات - تُعرف باسم الأقسام ، عند تنفيذ إجراء ما ، سيتم تشغيل مهمة لكل قسم. أقسام RDDs هي الوحدات الأساسية للتوازي.

أيهما أسرع RDD أو DataFrame؟

RDD - أثناء إجراء عمليات التجميع والتجميع البسيطة RDD API أبطأ. داتافريم - عند إجراء التحليل الاستكشافي ، وإنشاء إحصاءات مجمعة عن البيانات ، أطر البيانات نكون أسرع . RDD - عندما تريد تحولًا وأفعالًا منخفضة المستوى ، فإننا نستخدمها RDDs . أيضًا ، عندما نحتاج إلى تجريدات عالية المستوى نستخدمها RDDs.

موصى به: