ما هو الاختزال بالمفتاح؟
ما هو الاختزال بالمفتاح؟

فيديو: ما هو الاختزال بالمفتاح؟

فيديو: ما هو الاختزال بالمفتاح؟
فيديو: الأكسدة و الاختزال 2024, يمكن
Anonim

تقوم وظيفة Spark RDD بدمج القيم الخاصة بكل منها مفتاح باستخدام الجمعيات خفض وظيفة. هذا يعني بشكل حدسي ، أن هذه الوظيفة تنتج نفس النتيجة عند تطبيقها بشكل متكرر على نفس مجموعة بيانات RDD مع أقسام متعددة بغض النظر عن ترتيب العنصر.

إذن ، ما هو الفرق بين groupByKey و convertByKey؟

groupByKey () هو فقط لتجميع مجموعة البيانات الخاصة بك على أساس مفتاح. تقليل () هي شيء مثل التجميع + التجميع. تقليل يمكن استخدامها عند تشغيلنا على مجموعة بيانات كبيرة. aggregateByKey () منطقيًا هو نفسه تقليل () ولكنه يتيح لك إرجاع النتيجة في مختلف نوع.

تعرف أيضًا ، لماذا التقليل هو العمل في شرارة؟ شرارة تقلل العملية هي عمل نوع من العملية ويؤدي إلى تنفيذ DAG الكامل لجميع التعليمات البطيئة المصطفة. شرارة RDD خفض تعمل الوظيفة على تقليل عناصر RDD باستخدام عامل التبادل التبادلي والرابط الثنائي المحدد. شرارة تقلل عملية مماثلة تقريبا خفض طريقة في سكالا.

بجانب ما ورد أعلاه ، ما هو بيررد؟

يوفر Spark عمليات خاصة على RDDs تحتوي على أزواج مفتاح / قيمة. تسمى هذه RDDs أزواج RDD. تعد وحدات RDD المزدوجة لبنة بناء مفيدة في العديد من البرامج ، لأنها تعرض العمليات التي تتيح لك العمل على كل مفتاح بالتوازي أو إعادة تجميع البيانات عبر الشبكة. أزواج RDDs هي أزواج KEY / VALUE.

هل تقليل ByKey إجراء؟

يؤدي تقليل () إلى إخراج مجموعة لا تضيف إلى الرسم البياني الحلقي الموجه (DAG) بحيث يتم تنفيذها على هيئة ملف عمل . لكن، تقليل () يُرجع RDD وهو مجرد مستوى / حالة أخرى في DAG ، وبالتالي فهو تحول.

موصى به: