سیستم فایل HDFS با فرمت pdf ودر 23 اسلاید قابل ویرایش
قسمتی از متن سیستم فایل HDFS
مقدمه
• وقتی که اندازه یک دیتاست از ظرفیت ذخیره سازی کامپیوتر بیشتر می شود نیاز است تا آن را روی تعدادی کامپیوتر ( node ) مجزا
قسمت کنیم.
• به سیستم فایل هایی که فضای ذخیره سازی را روی شبکه ای از ماشین ها مدیریت می کنند سیستم فایل توزیع شده می گویند.
• سیستم فایل توزیع شده Hadoop ، HDFS نام دارد.
طراحی HDFS
•HDFS برای مقاصد زیر طراحی شده است:
• فایل های خیلی بزرگ: فایل هایی با اندازه های صدها گیگابایتی، ترابایتی یا حتی پتابایتی.
• دسترسی داده جریانی: کاراترین الگوی پردازش داده، الگوی نوشتن یکبار؛ خواندن نامحدود است. HDFS از این ایده الگو می گیرد، بنابراین زمان خواندن تمام دیتاست از تاخیری که برای خواندن اولین رکورد پیشمی آید مهم تر است.
• سخت افزار معمولی: Hadoop احتیاجی به سخت افزارهای گران قیمت با مقاومت در برابر خرابی ندارد. HDFS به گونه ای طراحی شده است که در مقابل خرابی های node ها حداکثر با وقفه ای جزئی کار خود را ادامه دهد.
•HDFS با موارد زیر سازگار نیست:
• دسترسی به داده ها با تاخیر کم: اپلیکیشن هایی که نیاز به دسترسی با تاخیر کم دارند به خوبی با HDFS کار نمی کنند.
• تعداد زیاد فایل کوچک: از آن جایی که namenode در حافظه اصلی نگه داری می شود محدودیت تعداد فایل های سیستم به میزان حافظه namenode بستگی دارد.
• چند نویسنده؛ تغییر در فایل ها به صورت تصادفی: فایل ها در HDFS توسط یک منبع نوشته می شوند. همیشه محتویات به انتهای فایل اضافه می شود (Append ). نمی توان در آفست خاصی از فایل تغییرات ایجاد کرد.
مفاهیم HDFS
•Block : بلاک کوچک ترین واحد خواندن و نوشتن در دیسک است. بلاک دیسک معمولا 512 بایت است در
حالی که بلاک سیستم فایل معمولا ضریبی از بلاک دیسک است.
•HDFS هم مفهوم بلاک را دارد منتها با اندازه بزرگ 128 مگابایت (پیش فرض)، فایل ها در HDFS در قطعه هایی به اندازه بلاک ذخیره می شوند. برخلاف سیستم فایل تک دیسکی فایلی با انداز کمتر از بلاک تمام آن را اشغال نمی کند. اندازه بلاک به این دلیل در سیستم بزرگ است که زمان خواندن تمام بلاک بایستی خیلی بیشتر از زمان رسیدن به ابتدای بلاک باشد.
• برای اطمینان از اینکه بلاک در خرابی های سخت افزاری از بین نمی رود، هر بلاک در تعداد محدودی (معمولا 3 ) ماشین مجزا کپی می شود.
Namenode و Datanode
•:Namenode فضای نام (namespace ) سیستم فایل را مدیریت می کند و متادیتای دایرکتوری ها و فایل ها را در سیستم فایل نگه داری می کند.
• این اطلاعات به صورت دائمی در دیسک محلی در قالب 2 فایل نگه داری می شوند: namespace image و edit log ،
namenode همچنین تمام datanode های مربوط به یک فایل خاص را می شناسد.
•Datanode : وظیفه اش نگه داری و بازیابی بلاک در هنگام فراخوانی و ارائه گزارش بلاک های ذخیره شده در فاصله های زمانی به namenode است.
دیدگاه خود را ثبت کنید