ما هي مشكلة الملفات الصغيرة في Hadoop؟
ما هي مشكلة الملفات الصغيرة في Hadoop؟

فيديو: ما هي مشكلة الملفات الصغيرة في Hadoop؟

فيديو: ما هي مشكلة الملفات الصغيرة في Hadoop؟
فيديو: 3. The Hadoop Distributed File System | غرائب وعجائب هادووب في تخزين الملفات والحاجات 2024, يمكن
Anonim

1) مشكلة ملف صغير في HDFS : تخزين الكثير من ملفات ملفات صغيرة وهي للغاية الأصغر من حجم الكتلة لا يمكن التعامل معها بكفاءة HDFS . من خلال القراءة ملفات صغيرة تتضمن الكثير من البحث والكثير من التنقل بين عقدة البيانات إلى عقدة البيانات ، وهو ما يؤدي إلى معالجة البيانات غير الفعالة.

بجانب هذا ، ما هي الملفات التي تتعامل مع مشاكل الملفات الصغيرة في Hadoop؟

1) HAR ( هادوب أرشيف) الملفات تم تقديمه إلى التعامل مع مشكلة الملفات الصغيرة . قدمت HAR طبقة فوق HDFS ، والتي توفر واجهة لـ ملف الوصول. استخدام هادوب أمر الأرشيف ، HAR الملفات يتم إنشاؤها ، والذي يدير ملف مابريديوس مهمة لحزم الملفات يتم أرشفتها في الأصغر رقم ال ملفات HDFS.

علاوة على ذلك ، هل يمكنني الحصول على ملفات متعددة في HDFS تستخدم أحجام كتل مختلفة؟ تقصير بحجم من منع 64 ميغا بايت. أنت علبة قم بتغييره حسب متطلباتك. قادم إلى سؤالك ، نعم أنت يمكن إنشاء ملفات متعددة بالتفاوت أحجام الكتلة ولكن في الوقت الحقيقي هذا إرادة لا تحبذ الإنتاج.

علاوة على ذلك ، لماذا لا يتعامل HDFS مع الملفات الصغيرة على النحو الأمثل؟

مشاكل مع ملفات صغيرة و HDFS كل ملف والدليل والحظر HDFS هو يتم تمثيله ككائن في ذاكرة namenode ، كل منها يحتل 150 بايت ، كقاعدة عامة. بالإضافة إلى، HDFS ليست كذلك تستعد للوصول بكفاءة ملفات صغيرة : هو - هي يكون مصممة في المقام الأول لدفق وصول كبيرة الملفات.

لماذا Hadoop بطيء؟

بطيء سرعة المعالجة يستغرق هذا القرص وقتًا مما يجعل العملية برمتها شديدة للغاية بطيء . لو هادوب بمعالجة البيانات في حجم صغير ، هو جدا بطيء نسبيا. إنه مثالي لمجموعات البيانات الكبيرة. كما هادوب يحتوي على محرك معالجة دفعي في جوهره ، وسرعته للمعالجة في الوقت الفعلي أقل.

موصى به: