Hadoop файлынын кайсы форматы мамычалык маалыматтарды сактоо форматына уруксат берет?
Hadoop файлынын кайсы форматы мамычалык маалыматтарды сактоо форматына уруксат берет?

Video: Hadoop файлынын кайсы форматы мамычалык маалыматтарды сактоо форматына уруксат берет?

Video: Hadoop файлынын кайсы форматы мамычалык маалыматтарды сактоо форматына уруксат берет?
Video: Очень кратко про Hadoop и Spark 2024, Ноябрь
Anonim

Мамычалуу файл форматтары (паркет, RCFile )

Hadoop үчүн файл форматтарындагы акыркы ысыктык - бул тилкелүү файл сактагыч. Негизинен бул бири-бирине жанаша маалымат саптарын сактоонун ордуна, сиз мамычанын маанилерин бири-бирине жанаша сактайсыз дегенди билдирет. Ошентип, маалымат топтомдору туурасынан да, тигинен да бөлүнөт.

Мындан тышкары, Hadoop маалыматтарды кандай форматта иштетет?

бир нече бар Hadoop - атайын файл форматтар алар атайын MapReduce менен жакшы иштөө үчүн түзүлгөн. Булар Hadoop - атайын файл форматтар файлга негизделген маалыматтар ырааттуу файлдар, сериялаштыруу сыяктуу структуралар форматтар Avro жана мамычалар сыяктуу форматтар RCFile жана Паркет сыяктуу.

Ошондой эле суралышы мүмкүн, мамычалык файл форматы деген эмне? Катар жана Мамычалуу Уюк үчүн сактагыч. ORC болуп саналат мамычалык сактоо формат Hivetables үчүн Hadoop колдонулат. Бул натыйжалуу болуп саналат Файлдын форматы жазуулар көп мамычаларды камтыган маалыматтарды сактоо үчүн. Мисалы, веб-сайттын активдүүлүгүн жана иштешин талдоо үчүн Clickstream (веб) маалыматтары.

Ошо сыяктуу эле, суралат, Hadoop файл форматы деген эмне?

Негизги файл форматтары болуп саналат: Текст формат , Key-Value формат , ырааттуулугу формат . Башка форматтар колдонулган жана жакшы белгилүү: Avro, Parket, RC же Row-Columnar формат , ORC же Оптимизацияланган катар тилкеси формат.

Эмне үчүн мамычалык файл форматтары маалымат кампасында колдонулат?

ORC сапты сактайт маалыматтар ичинде мамычалык формат . Бул катар- мамычалык формат кысуу үчүн абдан натыйжалуу болуп саналат сактоо . Ал кластер боюнча параллелдүү иштетүүгө мүмкүндүк берет, жана мамычалык формат тезирээк иштетүү жана декомпрессия үчүн керексиз тилкелерди өткөрүп жиберүүгө мүмкүндүк берет.

Сунушталууда: