Share to: share facebook share twitter share wa share telegram print page

Programación con datos masivos en R

La programación con datos masivos en R (pbdR, a partir del inglés Programming with Big Data in R)[1]​ es una serie de paquetes R y un entorno para el cálculo estadístico con grandes volúmenes de datos mediante el uso de la programación de alto rendimiento estadístico.[2]​ La pbdR utiliza el mismo lenguaje de programación que R con clases y métodos S3/S4 los cuales son usados entre los estadísticos y la minería de datos para el desarrollo de software estadístico. La diferencia significativa entre pbdR y el código R es que pbdR se centra principalmente en la memoria distribuida de los sistemas, donde los datos son distribuidos a través de varios procesadores y analizados en un modo por lotes, mientras que las comunicaciones entre procesadores se basan en MPI que se utiliza con gran facilidad en sistemas de computación de alto rendimiento (HPC). El sistema R se centra principalmente en máquinas simples multi-núcleo para el análisis de datos a través de un modo interactivo, tal como la interfaz gráfica de usuario.

Las dos implementaciones principales en R utilizando MPI son Rmpi[3]​ y pbdMPI de la pbdR.

  • La pbdR construida sobre pbdMPI utiliza paralelismo SPMD donde cada procesador se considera como esclavo y posee partes de los datos. El paralelismo SPMD introducido a mediados de 1980 es particularmente eficaz en entornos de cómputo homogéneos para datos de gran tamaño, por ejemplo, realizar la descomposición de valores singulares en una matriz grande, o realizar el análisis de clustering en grandes cantidades de datos de alta dimensión. Por otro lado, no hay ninguna restricción para utilizar paralelismo maestro/esclavo en entornos de paralelismo SPMD
  • El Rmpi[3]​ utiliza paralelismo maestro/esclavo donde un procesador principal (maestro) sirve como el control de los otros procesadores (esclavos). El paralelismo maestro/esclavo introducido a principios del 2000 es particularmente eficaz para tareas grandes en clusters pequeños, por ejemplo, el método bootstrap y la simulación Monte Carlo en estadística aplicada desde probabilidades i.i.d. es generalmente más utilizada en análisis estadístico. En particular, el paralelismo de extracción de tareas tiene mejor rendimiento para Rmpi en entornos de cómputo heterogéneos.

La idea del paralelismo PMD es para dejar que cada procesador haga la misma cantidad de trabajo, pero en partes diferentes de un conjunto grande de datos. Por ejemplo, un moderno GPU es una colección grande de coprocesadores más lento que pueden simplemente aplicar el mismo cálculo en partes diferentes sobre datos relativamente más pequeños, pero el paralelismo SPMD acaba con una manera eficaz de obtener soluciones finales (es decir, cronometrar que la solución sea más corta).[4]​ Es claro que pbdR no es solo propio para clusters pequeños, sino también más estable para analizar grandes volúmenes de datos y más escalable para supercomputadoras.[5]​ En resumen, pbdR

  • No le gusta el RMPI, ni paquetes paralelos en R,
  • No se centra en programación interactiva ni maestros/esclavos,
  • Pero es capaz de utilizar ambos paralelismos SPMD y de tarea.

Diseño de paquetes

La pbdR requiere el uso de varios paquetes desarrollados por el equipo núcleo pbdR. Los paquetes desarrollados son los siguientes.

General I/O Computación Aplicación Personalización Cliente/Servidor
pbdDEMO pbdNCDF4 pbdDMAT pmclust pbdPROF pbdZMQ
pbdMPI pbdADIOS pbdBASE pbdML pbdPAPI remoter
pbdSLAP hpcvis pbdCS
Las imágenes describen cómo son correlativos varios paquetes pbdr.

Entre estos paquetes, pbdMPI proporciona capas de funciones para una biblioteca MPI, y también produce una biblioteca compartida y un archivo de configuración para entornos MPI. Todos los demás paquetes confían en esta configuración para la instalación y carga de la biblioteca que evita dificultades de la biblioteca de enlaces y compilación. Todos los demás paquetes pueden utilizar fácil y directamente funciones MPI.

  • pbdMPI - Una interfaz eficaz para cualquier MPI OpenMPI o MPICH2 con énfasis en programas simples/datos múltiples (SPMD) estilo de programación paralela.
  • pbdSLAP - Incluye bibliotecas de álgebra lineal densa y escalable de doble precisión para R, basado en ScaLAPACK versión 2.0.2 el cual incluye varios paquetes de álgebra lineal escalables (denominados BLACS, PBLAS, y ScaLAPACK).
  • pbdNCDF4 - interfaz para unidatos paralelos NetCDF4 formato de archivos de datos
  • pbdBASE - Bajo nivel de códigos y capas ScaLAPACK
  • pbdDMAT - Clases matriciales distribuidas y métodos de programación, con enfoque en álgebra lineal y estadística.
  • pbdDEMO - Conjunto de paquetes de demostraciones y ejemplos, y esta viñeta unificada.
  • pmclust - Modelo paralelo basado en clustering utilizando pbdR
  • pbdPROF - Paquete de perfiles para códigos MPI y la visualización del análisis estadístico
  • pbdZMQ - Interfaz para ØMQ

Entre aquellos paquetes, el paquete pbdDEMO es una colección de 20 o más paquetes demos, los cuales ofrecen ejemplos de uso de varios paquetes pbdR, y contiene una viñeta que ofrece explicaciones detalladas para los demos y ayuda a comprender mejor la matemática o estadística.

Ejemplos

Ejemplo 1

Hola Mundo! Guarde el siguiente código en un archivo llamado "demo.r"

### Inicial MPI
library(pbdMPI, quiet = TRUE)
init()

comm.cat("Hola Mundo!\n")

### Terminar
finalize()

y utiliza la orden

mpiexec -np 2 Rscript demo.r

para ejecutar el código en el que Rscript es un programa ejecutable de línea de comandos.

Ejemplo 2

El siguiente ejemplo modificado desde pbdMPI ilustra la sintaxis básica del lenguaje de pbdR. Ya que pbdR está diseñado en SPMD, todo los scripts de R están almacenados en archivos y ejecutados desde la línea de comandos a través de mpiexec, mpirun, etc. Guardar el siguiente código en un archivo llamado "demo.r"

### Inicial MPI
library(pbdMPI, quiet = TRUE)
init()
.comm.size <- comm.size()
.comm.rank <- comm.rank()

### Colocar un vector x encima de todos los procesadores con valores diferentes
N <- 5
x <- (1:N) + N * .comm.rank

### Disminuye x utilizando la operación suma
y <- allreduce(as.integer(x), op = "sum")
comm.print(y)
y <- allreduce(as.double(x), op = "sum")
comm.print(y)

### Terminar
finalize()

y utiliza la orden

mpiexec -np 4 Rscript demo.r

para ejecutar el código en el que Rscript es un programa ejecutable de línea de comandos.

Ejemplo 3

El siguiente ejemplo modificado de la pbdDEMO ilustra el cálculo de la matriz básica de pbdR el cual realiza la descomposición de valores singulares en una matriz dada. Guardar el siguiente código en un archivo llamado "demo.r"

# Inicializar el proceso grid
library(pbdDMAT, quiet=T)
if(comm.size() != 2)
  comm.stop("Exactamente 2 procesadores son requeridos para este demo.")
init.grid()

# Configurar para recordar
comm.set.seed(diff=TRUE)
M <- N <- 16
BL <- 2 # bloquear --- pasando valores simples BL supone BLxBL blocking
dA <- ddmatrix("rnorm", nrow=M, ncol=N, mean=100, sd=10)

# LA SVD 
svd1 <- La.svd(dA)
comm.print(svd1$d)

# Terminar
finalize()

y utiliza la orden

mpiexec -np 2 Rscript demo.r

para ejecutar el código en el que Rscript es un programa ejecutable de línea de comandos.

Lecturas recomendadas

Referencias

  1. Ostrouchov, G., Chen, W.-C., Schmidt, D., Patel, P. (2012). "Programming with Big Data in R".
  2. Chen, W.-C. & Ostrouchov, G. (2011). "HPSC -- High Performance Statistical Computing for Data Intensive Research".
  3. a b Yu, H. (2002). "Rmpi: Parallel Statistical Computing in R". R News.
  4. Mike Houston. "Folding@ghome-GPGPU" Recuperado en 2007-10-04
  5. Schmidt, D., Ostrouchov, G., Chen, W.-C., y Patel, P. (2012). "Tight Coupling of R and Distributed Linear Algebra for High-Level Programming with Big Data". High Performance Computing, Networking, Storage and Analysis (SCC), 2012 SC Companion: 811–815.
  6. "100 most read R posts in 2012 (stats from R-bloggers) – big data, visualization, data manipulation, and other languages".

Enlaces externos

Read other articles:

Questa voce o sezione sull'argomento fonetica non cita le fonti necessarie o quelle presenti sono insufficienti. Puoi migliorare questa voce aggiungendo citazioni da fonti attendibili secondo le linee guida sull'uso delle fonti. Nasale palataleIPA - numero118 IPA - testoɲ IPA - immagine UnicodeU+0272 Entity&#626; X-SAMPAJ Kirshenbaumn^ Ascoltonoicon La nasale palatale è una consonante, rappresentata con il simbolo [ɲ] nell'alfabeto fonetico internazionale (IPA). Indice 1 Caratteristi…

Gönnebek Lambang kebesaranLetak Gönnebek di Segeberg NegaraJermanNegara bagianSchleswig-HolsteinKreisSegeberg Municipal assoc.Bornhöved Pemerintahan • MayorKnut HamannLuas • Total14,87 km2 (574 sq mi)Ketinggian36 m (118 ft)Populasi (2013-12-31)[1] • Total473 • Kepadatan0,32/km2 (0,82/sq mi)Zona waktuWET/WMPET (UTC+1/+2)Kode pos24610Kode area telepon04323Pelat kendaraanSESitus webwww.amt-bornhoeved.de G…

1987 film by Simon Wincer The LighthorsemenDVD coverDirected bySimon WincerWritten byIan JonesProduced by Ian Jones Simon Wincer Starring Jon Blake Peter Phelps Tony Bonner Bill Kerr John Walton Gary Sweet Tim McKenzie Sigrid Thornton Anthony Andrews CinematographyDean SemlerEdited byAdrian CarrMusic byMario MilloProductioncompanies RKO Pictures FGH Picture Show International Film Management Australian Film Commission Film Victoria South Australian Film Corporation Distributed by Hoyts Distribut…

Untuk Bekas negara di Asia, lihat Pala (Anatolia). Pala Pala Klasifikasi ilmiah Kerajaan: Plantae (tanpa takson): Angiospermae (tanpa takson): Magnoliids Ordo: Magnoliales Famili: Myristicaceae Genus: Myristica Spesies: M. fragrans Nama binomial Myristica fragrans Pala (Myristica fragrans) merupakan tumbuhan berupa pohon yang berasal dari kepulauan Banda, Maluku. Akibat nilainya yang tinggi sebagai rempah-rempah, buah dan biji pala telah menjadi komoditas perdagangan yang penting sejak masa…

Selection of Republican US presidential candidate 1936 Republican Party presidential primaries ← 1932 March 10 to May 19, 1936 1940 →   Candidate William Borah Alf Landon Frank Knox Home state Idaho Kansas Illinois Contests won 5 3 1 Popular vote 1,478,676 729,908 527,054 Percentage 44.5% 21.9% 15.8% First place finishes by popular vote   William Borah (5)   Alfred Landon (3)   Frank Knox (1)   Earl Warren (1) …

Not to be confused with ECAC Hockey, a separate NCAA Division I conference. Sports federation of colleges and universities in the eastern United States Eastern College Athletic ConferenceAssociationNCAAFounded1938CommissionerDan Coonan (since 2017)Sports fielded 15 men's: 13 women's: 13 DivisionI, II, IIINo. of teams220HeadquartersDanbury, Connecticut, U.S.RegionEast CoastOfficial websitehttp://www.ecacsports.comLocations The Eastern College Athletic Conference (ECAC) is a college athletic confe…

Siege of PhilippsburgPart of the Thirty Years' WarPainting of the siege by Jean-Baptiste Le Paon (1769)Date25 August – 12 September 1644(2 weeks and 4 days)LocationPhilippsburg, Prince-Bishopric of Speyer, Holy Roman Empire,(present-day Germany)49°14′13″N 8°27′17″E / 49.2370°N 8.4548°E / 49.2370; 8.4548Result French victoryBelligerents  France  Holy Roman EmpireCommanders and leaders Duc d'Enghien Vicomte de Turenne Duc de Gramont Caspar …

Rizki Yanu KresnayandiInformasi pribadiKebangsaan IndonesiaLahir25 Januari 1989 (umur 35)Magelang, IndonesiaPeganganKananGanda PutraPeringkat tertinggi115 (5 Juli 2011)Peringkat saat ini154 Albert Saputra (4 Oktober 2011) Albert Saputra (lahir 25 Januari 1989) adalah salah satu pemain bulu tangkis Ganda Putra Indonesia. Prestasi 2007 Perempat final Waikato International 2007 (bersama Komala Dewi) 2008 Runner - up Laos Future Series 2008 (bersama Albert Saputra) Perrmpat final…

Yosaphat Didik Heru Purnomo Laksamana Madya TNI (Purnawirawan) Informasi pribadiLahir14 April 1954 (umur 70) YogyakartaAlma materAKABRI (1975)PekerjaanPurnawirawan TNIKarier militerPihak IndonesiaDinas/cabang TNI Angkatan LautMasa dinas1975 – 2012Pangkat Laksamana Madya TNINRP7415/PSatuanKorps PelautSunting kotak info • L • B Laksamana Madya TNI (Purn.) Yosaphat Didik Heru Purnomo (lahir 14 April 1954) adalah seorang purnawirawan perwira tinggi militer dari TNI Ang…

Sporting event delegationGuyana at the2020 Summer ParalympicsIOC codeGUYNOCGuyana Paralympic Associationin TokyoCompetitors1 in 1 sportFlag bearer Walter Grant-StuartMedals Gold 0 Silver 0 Bronze 0 Total 0 Summer Paralympics appearances19601964196819721976198019841988199219962000200420082012201620202024 Guyana competed at the 2020 Summer Paralympics in Tokyo, Japan, from 24 August to 5 September 2021. This was the country's debut appearance in the Paralympic Games. [1][2] Cy…

† Человек прямоходящий Научная классификация Домен:ЭукариотыЦарство:ЖивотныеПодцарство:ЭуметазоиБез ранга:Двусторонне-симметричныеБез ранга:ВторичноротыеТип:ХордовыеПодтип:ПозвоночныеИнфратип:ЧелюстноротыеНадкласс:ЧетвероногиеКлада:АмниотыКлада:СинапсидыКл…

Comprehensive criminal law of Canada This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Criminal Code Canada – news · newspapers · books · scholar · JSTOR (September 2015) (Learn how and when to remove this message) Criminal CodeParliament of Canada Long title An Act respecting the Criminal Law CitationRSC 19…

Castle in France This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Château de Châteaudun – news · newspapers · books · scholar · JSTOR (July 2015) (Learn how and when to remove this message) Château de ChâteaudunView from the opposite hillGeneral informationTypeCastle, then châteauArchitectural styleGothic a…

Ada usul agar artikel ini digabungkan ke Transvision. (Diskusikan) Diusulkan sejak April 2024. Artikel ini tidak memiliki referensi atau sumber tepercaya sehingga isinya tidak bisa dipastikan. Tolong bantu perbaiki artikel ini dengan menambahkan referensi yang layak. Tulisan tanpa sumber dapat dipertanyakan dan dihapus sewaktu-waktu.Cari sumber: Musik Indonesia saluran televisi – berita · surat kabar · buku · cendekiawan · JSTOR Musik IndonesiaDilunc…

UK charity Children with Cancer UK (formerly Children with Leukaemia) is a United Kingdom-based charity dedicated to raising money for research and providing care for children with cancer and their families. The aims of their research projects are to understand what causes children to get cancer and to develop improved treatments.[1] The charity also organises days out and parties for families affected by childhood cancer.[2] Children with Cancer UKFormerlyChildren with Leukaemia…

American judge and politician William Marvin7th Governor of FloridaIn officeJuly 13, 1865 – December 20, 1865Appointed byAndrew JohnsonPreceded byAbraham K. AllisonSucceeded byDavid S. WalkerJudge of the United States District Court for the Southern District of FloridaIn officeMarch 3, 1847 – July 1, 1863Appointed byJames K. PolkPreceded bySeat established by 9 Stat. 131Succeeded byThomas Jefferson Boynton Personal detailsBornWilliam Marvin(1808-04-14)April 14, 1808Fair…

Pour les articles homonymes, voir Grosse. David.J Gross David J. Gross Données clés Naissance 19 février 1941 (83 ans)Washington (États-Unis) Nationalité États-Unis Résidence États-Unis Données clés Domaines Physique Institutions Université de Californie Université Harvard Université de Princeton Renommé pour Liberté asymptotique Distinctions Prix Nobel de physique (2004) Médaille Dirac (1988) Site www.kitp.ucsb.edu/gross modifier David Jonathan Gross, né le 19 février 194…

Хип-хоп Направление популярная музыка Истоки фанкдискоэлектронная музыкадабритм-энд-блюзреггидэнсхоллджаз[1]чтение нараспев[англ.]исполнение поэзииустная поэзияозначиваниедюжины[англ.]гриотыскэтразговорный блюз Время и место возникновения Начало 1970-х, Бронкс, Нь…

У этого термина существуют и другие значения, см. Флора Китая (значения). Incarvillea sinensis — кит. 角蒿 Гортензия крупнолистная — кит. 繡球花 Флора Китая — исторически сложившаяся совокупность видов растений на территории Китайской Народной Республики. Растительный покро…

العلاقات الأوكرانية الإندونيسية أوكرانيا إندونيسيا   أوكرانيا   إندونيسيا تعديل مصدري - تعديل   العلاقات الأوكرانية الإندونيسية هي العلاقات الثنائية التي تجمع بين أوكرانيا وإندونيسيا.[1][2][3][4][5] مقارنة بين البلدين هذه مقارنة عامة ومرجعية ل…

Kembali kehalaman sebelumnya