You are on page 1of 16

De la cocina Koori cominitario ...La cocina de la comunidad Koori ha puesto de manifiesto y ha generado intersen la alimentacin saludable, nutricin y cocina.

El jefe de E jecutivo fficer Ode TAC ha dado su apoyo y compromiso con el KooriComunidad K Itchen para continuar con el gran trabajo que est haciendodentro de la comunidad. Cuando el activo de financiacin dej de Australia,TAC decidi continuar con la financiacin de la cocina de la comunidad Kooriprograma.A travs del funcionamiento de la cocina y sesiones de educacin,el importante papel y la labor de la nutricionista de la comunidad fuedestac. TAC se ha empleado un dietista a tiempo completo, para trabajar conlos distintos equipos, para incorporar la nutricin en sus programas.TAC cuenta con una poltica de alimentacin saludable que tiene como objetivo promover la buenala nutricin a travs de su comunidad, proporcionando sana y nutritivaalimentos y bebidas para el personal, la comunidad y los clientes. Un libro de recetasha sido desarrollado con las aportaciones de los participantes queasisti a la cocina. Los participantes han tenido un hilo acerca de suhistorias, de dnde vienen, qu han aprendido y losu receta favorita es.TAC tambin ha proporcionado la tierra, que ha permitido que el programaexpandirse para incluir a un jardn comunitario. El jardn se ha quedadotalleres que ensean a la comunidad la forma de abono, crecenlas verduras en una caja de espuma de poliestireno, se propagan a partir de esquejes yexperimentar la alegra de la jardinera. Las verduras y las hierbas que crecenfresco del jardn se utilizan en la cocina de la comunidad Koori.Los participantes tambin pueden llevar a casa las verduras frescas para compartircon sus familias. La cocina de la comunidad Koori y la ComunidadJardn han fusionado y los participantes tienen la opcin departicipar en las actividades en la cocina o en el jardn. HayAhora el inters del Grupo de Juegos y Preescolar en el TAC para el desarrollosus jardines propios alimentos.ExpectativasLos participantes que asisten a la cocina han acordado que elel programa ha cumplido con creces sus expectativas. Esto se refleja porcomentarios de los participantes:"Bien organizado""Mucha de la informacin""Aprendidas nuevas y emocionantes maneras de cocinar""Estamos compartiendo nuestras ideas y conocimientos".AgradecimientosNos gustara agradecer a todos los trabajadores involucrados en el desarrollo,apoyo y orientacin de este programa desde Tharawal aborigenCorporacin y el Servicio de Promocin de la Salud. La mayor parte de todo lo que haraagradecer a los miembros de la Comunidad Aborigen Tharawalque estuvieron involucrados en el xito de la cocina de la comunidad KooriProyecto.Los co-autores desean agradecer a D arryl Wright, Sean Appoo,Nerida D eane, Alice Wood, K aren Wardle y D anielle Webersus consejos de este artculo.Si usted o su comunidad est interesada en saber ms acerca de laKoori cocina de la comunidad, por favor pngase en contacto con:Sofa Malie en Tharawal Aboriginal CorporationTelfono: 02 4628 4837. E-mail: @ Sophia.Malie tacams.com.auReferencias1. NSW Centro para la Nutricin y Salud Pblica. D epartamento de NSW de Salud,Seguridad Alimentaria O pciones de papel http://www.cphn.biochem 2003.usyd.edu.au2. Instituto Australiano de Salud y Bienestar Social, Bienestar de Australia2007 (nmero 8) Indicadores de Bienestar http://www.aihw.gov australianos.au/publications/index.cfm/title/10527

La realizacin de la BSP algoritmo de Strassen. Autores: McColl, W. F. Fuente: Modelos de mquina abstracta para la computacin paralela y distribuida, 1996, vol. 48, p43, 4p Tipo de Documento: artculo Descriptores: * Las computadoras paralelas * Algoritmos * Los MATRICES Resumen: Describe una mayor eficiencia en paralelo sncrono (BSP), la realizacin del algoritmo de equipo de Strassen multiplicacin de matriz. Caractersticas de la BSP, cmo opera la computadora BSP, Discusin del algoritmo de Strassen. Recuento Total de Palabras: 2038 ISBN: 9789051992670 Numero de Acceso: 144961 Base de Datos: Academic Search Complete Un BSP REALIZACIN DE ALGORITMO Strassen (*)

Resumen Un eficiente realizacin de BSP del algoritmo de Strassen multiplicacin de matriz se describe.1 El BSP ModeloUna masiva paralela sncrona (BSP), equipo [1, 4] se compone de un conjunto de pares de memoria en el procesador, una red mundial de comunicaciones, y un mecanismo para la sincronizacin de barrera eficaz de los procesadores. Si se define un paso de tiempo a ser el tiempo requerido para una operacin local nico, es decir, una operacin bsica (tales como la adicin o la multiplicacin) localmente mantenidos valores de datos, entonces el rendimiento de cualquier ordenador BSP puede ser caracterizado por tres parmetros: p = nmero de procesadores; l = nmero de pasos de tiempo para la sincronizacin de barrera; g = (nmero total de operaciones locales realizadas por todos los procesadores en un segundo) / (nmero total de palabras entregadas por la red de comunicaciones en un segundo). [No es tambin, por supuesto, un parmetro s cuarto, el nmero de pasos de tiempo por segundo. Sin embargo, puesto que los dems parmetros estn normalizados con respecto a que uno, puede ser ignorada en el diseo de algoritmos y programas] El parmetro g corresponde a la frecuencia con la que no locales accesos a la memoria se puede hacer;. En una mquina con una mayor valor de g se debe hacer de la nolocal de la memoria accede con menor frecuencia. Cualquier sistema de computacin en paralelo puede ser considerada como una computadora BSP, y pueden ser comparados en consecuencia para determinar su parmetros BSP p, s, l, y g. El modelo BSP tanto, no es prescriptivo en cuanto a las arquitecturas fsicas a las que se aplica.Un ordenador BSP opera de la siguiente manera. Un clculo consiste en una secuencia de supersteps paralelos, donde cada SUPERSTEP consta de una secuencia de pasos, seguido por una barrera de sincronizacin en el que cualquier punto de la memoria no local accede a tener efecto. Durante un BSP, cada procesador puede realizar una serie de pasos de clculo sobre los valores locales que se celebrarn en el inicio de la BSP, y enviar y recibir un nmero de mensajes que corresponden a las peticiones locales de no leer y escribir. El tiempo para un S SUPERSTEP se determina como sigue. Que el trabajo W es el nmero mximo de pasos de clculo locales ejecutadas por cualquier procesador durante S. Sea hs ser el nmero mximo de mensajes enviados por cualquier procesador durante S, y h es el nmero mximo de mensajes recibidos por cualquier procesador durante S. La tiempo para que S es entonces en la mayora de W mx + gx {hs, hora} + l pasos. El tiempo total requerido para un cmputo BSP se obtiene fcilmente mediante la adicin de las veces para cada SUPERSTEP.

Algoritmo 2 de Strassen Sean A y B dos matrices nxn y considerar el problema de la informtica C = A x B. Podemos considerar las matrices A, B, C, cada uno compuesto de cuatro n 2 / xn / 2 submatrices. Por ejemplo, [Ecuacin de la lnea mltiple (s) no puede ser representado en forma de texto ASCII] Si las submatrices de B y C se

describen en la misma forma entonces tenemos Cij = x AI0 B0J + Ail x BLJ para todo i, j. Esto produce un algoritmo recursivo secuencial de la complejidad n3 para la multiplicacin de la matriz. [En este artculo, se omiten los diversos factores constantes en lmites nuestra complejidad.] Strassen [3] observ que los ocho multiplicaciones submatriz en este algoritmo recursivo puede reducirse a siete, mediante adiciones y sustracciones de matriz en una forma ms compleja. El siguiente mtodo es una simple variante del algoritmo original presentado por Strassen. Al parecer, en [2]. dejar L0 = A00 L1 = A01 L2 = A10 + A11 L3 = A00 + A10 L4 = L2 - A00 L5 = A01 - A00 L6 = A11 R0 = B00 R1 = B10 R2 = B01 - B00 R3 = B11 - B01 R4 = R3 + B00 R5 = B11 R6 = B10 - R4 y Mi = Li Ri x para todo 0 </ i = </ = 6. Si ahora vamos a T0 = M0 + M4 T1 = T0 + M3 entonces tenemos que C00 = M0 + M1 C01 = T0 + M2 + M5 C10 = T1 + M6 C11 = T1 + M2 Si MM (n) denota el costo de la multiplicacin de la matriz de nxn, y MA (n) denota el costo de nxn Adems matriz / resta, entonces el algoritmo anterior muestra que MM (n) </ = 7 mm x (n / 2) + 15 x MA (n / 2). Tomando nota de que MA (n) = n2, se obtiene MM (n) = n log sub 2] sup 7]].

3 Realizacin BSPEl modelo BSP ofrece un marco unificado para el diseo, anlisis e implementacin de algoritmos paralelos escalables. En esta seccin describimos una eficiente realizacin del BSP algoritmo de Strassen. Antes de hacerlo, se describe brevemente lo que se conoce para el problema (ms simple) de realizar el mtodo estndar de n3 multiplicacin de la matriz como un algoritmo de BSP. Ms adelante veremos que algunas de las tcnicas utilizadas pueden ser prorrogados al problema ms complejo de realizar el algoritmo de Strassen.En [4], se demostr que para p </ = N2, N3 la norma algoritmo secuencial multiplicacin de la matriz puede ser adaptado para funcionar con AP procesador mquina BSP como sigue. Cada procesador calcula un (n/p1/2) x (n/p1/2) submatriz de C = A x B. Para ello se requerir n2/p1/2 elementos de A y el mismo nmero de B. Si A y B son ambos distribuidos uniformemente a travs de los procesadores p, con cada procesador mantiene N2 / p de los elementos de cada matriz, entonces el tiempo total requerido para este algoritmo ser n3 / p + (n2/p1/2) xg + l.En [1] una realizacin BSP ms eficiente del algoritmo N3 estndar, debido a McColl y Valiant, fue descrito. Su complejidad es BSP n3 / p + (n2/p2/3) x g + l. Al igual que en el algoritmo anterior comenzamos con A, B distribuyen de manera uniforme, sino arbitrariamente entre los procesadores, p. Al final del clculo, los elementos de n2 C tambin deben ser distribuidos uniformemente a travs de los procesadores p. Sea s = n/p1/3 y A [i, j] denota la submatriz de A SxS que consta de los elementos ai, j donde LXS = I y J / s = j. Definir B [i, j] y C [i, j] de manera similar. Entonces tenemos que C [i, j] = Sigma0 </ = k <p, sup 1.3 A [i, k] x B [k, j]. Que PROC (i, j, k), 0 </ = i, j, k <p 1/3, indican los p procesadores.En la primera SUPERSTEP cada procesador PROC (i, j, k) obtiene el conjunto de elementos en A [i, k] y los de B [k, j]. El costo de este paso es (n2/p2/3) x g + l. En el PROC SUPERSTEP segundo (i, j, k) calcula una [i, k] x B [k, j] y enva cada uno de los valores resultantes n2/p2/3 al procesador nico que es responsable de calcular el correspondiente valor de C. El costo de este paso es n3 / p + (n2 / p 2/3) x g + l. En el SUPERSTEP final, cada procesador calcula cada uno de sus elementos N2 / p de C mediante la adicin de la P1 / 3 valores recibidos para ese elemento. El costo de este paso es n2 / p 2/3 + l.Si, en el algoritmo de McColl-Valiente, se utiliza el mtodo de Strassen para los productos de la matriz computado en el BSP en segundo lugar, entonces de inmediato obtener un algoritmo BSP para la multiplicacin de matriz que tiene una complejidad (n log, sub 2, sup 7 / (p (registro, sub 2, sup 7]) / 3)) + (n2/p2/3) xg + l. En el resto de esta seccin vamos a

demostrar que, asintticamente, es posible mejorar tanto el trmino computacin Nlog, sub 2, sup 7 / p (log, sub 2, sup 7) / 3 de la comunicacin de plazo (n2/p2 / 3) xg en este lmite superior, mientras se mantiene el trmino sincronizacin lineal en l.Por simplicidad, se supone que n = CX 4K x 7k y p = 72K, podemos considerar A, B, C, tal como cada uno compuesto de submatrices 42k, o bloques, de tamao cx 7k xcx 7k, Cada submatriz tal manera similar puede ser considerado como compuesto de 72k subsubmatrices o subbloques, de tamao y cx c.La distribucin de los elementos de A es como sigue. Cada procesador est identificada con una de las posiciones subbloques 72k dentro de cada bloque. El procesador inicialmente cuenta con todos los sub-bloques de 42k A, que se encuentran en esa situacin dentro de su bloque. La distribucin de los elementos de B y C son los mismos que para A. El producto C = A x B se calcula como sigue.En el BSP primero que inicie el algoritmo de Strassen, parando cada cadena de llamadas recursivas cuando el nivel de recursividad llega a 2k. [Lo detenerse ante el subcomputation producto de la matriz se ha iniciado.] Para cada procesador, el costo de este cmputo BSP est dada por Sigma2k, sub l = 1 7l-1 x 8. MA (n / SL) / p, que es a lo sumo n2 x (4.7) 2k / p, para n = C x 4K x 7k yp = 72K, este lmite superior no es ms que Nlog, sub 2, sup 7 / p. No hay ningn costo asociado con esta comunicacin SUPERSTEP, ya que cada nivel recursivo de adicin y sustraccin operaciones se lleva a cabo a travs de toda la mquina por simultneamente sumando o restando los subbloques correspondientes.El primero produce SUPERSTEP subcomputations 72k, cada uno de los cuales es un producto de matriz que implica un bloque A de valores, cada una correspondiente a una suma de elementos de A, y un bloque B de valores, cada una correspondiente a una suma de elementos de B. Estos p subcomputations matriz del producto se llev a cabo en los procesadores p, con cada procesador computar un solo producto localmente. Los subbloques de varios de A y B se obtuvo por primera vez. El producto bloque A x B se calcula entonces localmente mediante el mtodo de Strassen como el algoritmo secuencial. Finalmente, cada uno de los subbloques del producto resultante se enva al procesador que es responsable de subbloques en esa posicin. El coste de este clculo es SUPERSTEP segundo (cx 7k) de registro, SUB2, sup 7 que no es ms que Nlog, sub 2, sup 7 / p. El costo de la comunicacin es c2 x xg 72k, que es a lo sumo (n2/p2/log, sub 2, sup 7) x g.En el SUPERSTEP final, las adiciones para completar las llamadas recursivas se realizan en la misma forma que en la primera SUPERSTEP, es decir, mediante la realizacin de las adiciones locales en subbloques. El costo de la computacin SUPERSTEP final viene dado por Sigma2k, sub l = 1 7l-1 x 7 x MA (n/2l) / p, que no es ms que el costo de la computacin SUPERSTEP primero. Como en la primera SUPERSTEP, no hay costes de comunicacin.El costo total de esta toma de conciencia de los BSP algoritmo de Strassen es por lo tanto,(2 Nlog, sub, sup 7) / p) + (n2/p2/log, sub 2, sup 7) xg + ly que puede ser utilizado para todo p </ = nAlpha, donde 72k = (4k 7k) alfa, es decir, donde alfa = 2 log2 7 / (2 + log27).(*) Este trabajo fue apoyado en parte por el proyecto ESPRIT Investigacin Bsica 9072 - GEPPCOM (Fundamentos de la informtica en general Paralelo Propsito). Direccin: Grupo de Investigacin de programacin, la Universidad de Oxford Computing Laboratory, Wolfson Building, Parks Road, Oxford OX1 3QD, Inglaterra. Correo electrnico: mccoil@comlab.ox.ac.ukReferencias[1] F W McColl. De computacin escalable. En J van Leeuwen, director, Ciencias de la Computacin de hoy: tendencias y acontecimientos recientes. LNCS Tomo 1000, pginas 46-61. Springer-Verlag, 1995.[2] M S Paterson. La complejidad de los algoritmos de productos y el cierre de las matrices. En RD James, editor, Actas del Congreso Internacional de Matemticos (Vancouver, BC), volumen 2, pginas 483-489, 1974.[3] V Strassen. Eliminacin de Gauss no es ptima. Numerische Mathematik, 13:354-356, 1969.[4] G L Valiente. Un modelo de

transicin para la computacin paralela. Communications of the ACM, 33 (8) :103-111, de 1990.

Analysis of multicomputer schedules in cost and latency...


Autores: Chochia, George Boeres, Cristina Fuente: Abstract Machine Models for Parallel & Distributed Computing; 1996, Vol. 48, p29, 14p, 2 Diagrams, 3 Graphs Tipo de documento: Article Descriptores: *PARALLEL computers *DIRECTED graphs Resumen: Discusses the multicomputer schedules in cost and the CLAUD, a model of parallel computation called CLAUD. Concept of General Purpose Parallel Computer (GPPC); Analysis of the CLAUD model; Line partitioning of the Diamond, a directed graphs in the Claud model; Communication schedule in CLAUD. R e c u e n t o t o t a l d e p a l a b r a s : 5870

9789051992670

144960

Academic Search Complete

ANLISIS DE LAS LISTAS multicomputador EN COSTOS Y MODELO latencia de comunicacin

ResumenLos programadores de multicomputadoras (distribuida la memoria, el paso de mensajes MIMD computadores paralelos) estn familiarizados con el concepto de que la comunicacin inter incurre en dos tipos de gastos: (1) la latencia asociada a la comunicacin a travs de interconexin de la computadora y (2) la sobrecarga de software asociados con el establecimiento el paso de mensajes pide al envo y recepcin de los procesadores. En la prctica, la sobrecarga de software es abrumadoramente el ms significativo de los dos. Sin embargo, en los modelos de los investigadores de la computacin paralela, sobrecarga de software es casi siempre ignorado, o indirectamente, el modelo (y, en nuestra opinin, errneamente) como la misma que la latencia. No ha habido ningn intento coherente para modelar la sobrecarga de software. En este artculo se considera una de las favoritas del banco de pruebas de la

programacin y asignacin de la literatura, una familia de acclico, grafos dirigidos llamado el diamante, en trminos de un nuevo modelo de computacin en paralelo, llamado Claud, que toma en consideracin los componentes de fidelidad de los gastos generales de comunicacin . Al comparar las expresiones derivadas de analtica para el desempeo con los resultados de un programa real que muestran que CLAUD puede predecir con exactitud el rendimiento de los clculos en un multicomputador real.1 IntroduccinUno de los pocos puntos en que todos los investigadores y profesionales de la computacin paralela estara de acuerdo es que las computadoras paralelas son mucho ms difciles de programar que los ordenadores secuenciales si desea extraer el mximo potencial de rendimiento. La complejidad aadida de hardware multicomputador significa que, si usted es un diseador de algoritmo, un analista de la complejidad, o un programador, es necesario trabajar con modelos abstractos de la computacin paralela. Los sistemas paralelos de computacin puede ser considerado como idiomas que comprenden, los algoritmos y arquitecturas [4] y una rica diversidad de modelos abstractos ya existe para cada uno de estos tres componentes.Como con cualquier ejercicio de modelado, algunas de las caractersticas de un computador paralelo real, se suprimi, o incorporarse de una manera simplificada, cuando esos modelos son creados por los investigadores. Las personas que eligen uno de estos modelos hay que reconocer que hay un trade-off entre la sencillez y la verosimilitud. Los modelos relativamente simples son ms fciles de trabajar con, por ejemplo, usted puede disear un algoritmo paralelo con relativa facilidad, pero las predicciones del modelo no puede tener mucha semejanza a la forma en que el algoritmo realizar cuando se lleva a cabo en un multicomputador real. Por otro lado, los modelos relativamente realistas son tan difciles de trabajar con los que, dadas las limitaciones de la psicologa humana, son de poca utilidad prctica, aunque su valor predictivo es bueno. La eleccin del modelo es difcil debido a las fortalezas de cada modelo se expresan en trminos incomparables, con medidas tales como el rendimiento, costo y escalabilidad. Adems, el "peso" relativo asociado a cada medida depende de la aplicacin. Hay que distinguir entre los modelos de alto y bajo nivel.Los modelos de alto nivel, el concepto de un ordenador de propsito general en paralelo (GPPC) hace hincapi en la conveniencia de la programacin, la escalabilidad y portabilidad, rendimiento, mientras que es de menor importancia que, por ejemplo, para una aplicacin en tiempo real que tiene que ser implementado en un recurso determinado. Varios modelos computacionales se han desarrollado para apoyar GPPC al servir como "puente" entre los modelos de programacin y modelos arquitectnicos. Los clasificamos como modelos de alto nivel. Por lo general, estos modelos presentan muy pocos (menos de 6) los parmetros y los algoritmos son dependientes del modelo ya que dependen de estos parmetros. Ejemplos de Modelo los BSP [12], LogP [2], H-PRAM [5] y YPRAM [3], para ms referencias, ver [7].De bajo nivel estos modelos estn ms cerca de los "primeros principios" [9], que contiene las descripciones de la arquitectura subyacente y de la comunicacin sub-sistema. Por ejemplo, el modelo FEF [6] contiene la siguiente lista de parmetros: el coste de Sigma (p, p ') de la transferencia de un mensaje de unidad de longitud entre un par de procesadores P y P' en una red, Mu (t, t ') la cantidad de datos que tiene que ser transferido entre dos tareas T y T ', el primero de los cuales es un precursor inmediato de la otra, y el tiempo, Mu (t), necesaria para calcular un t tarea. Aunque los modelos de bajo nivel podra ser ms difcil de manejar para el diseador algoritmo que son ms adecuados para herramientas paralelizacin automticas donde se realiza el descubrimiento de un calendario concreto para un cmputo a cabo por el software de programacin, no por el diseador algoritmo humana. Un "justo" de bajo nivel de modelo puede ser utilizado para derivar modelos de alto nivel. As, en lugar de

tener mltiples algoritmos de programacin para diferentes modelos de alto nivel, puede ser suficiente para tener un algoritmo para el modelo de bajo nivel que nos permiten obtener un calendario para el modelo de alto nivel como una transformacin formal.Hemos desarrollado un modelo de bajo nivel, llamado Claud ("Coste y latencia aumentada DAG '), de la comunicacin en un multicomputador de paso de mensajes [8]. CLAUD requiere una especificacin de la red subyacente, incluyendo parmetros como la sobrecarga de enviar y recibir gastos de inicio de inicio, cf. ETF [6]. Se demuestra que su suma es una medida de la granularidad de una multicomputador el paso de mensajes. Justificamos el modelo mediante el anlisis de particiones CLAUD y horarios para un algoritmo de programacin dinmica que puede ser representado por una familia de DAG, llamado el Diamante (ver Figura 1). `Line horarios de particin del diamante en las lneas, y asignar todas las tareas en una lnea en el mismo procesador. El algoritmo de la Fundacin [6] se encuentra un programa de lnea de la Diamond siempre que el sistema multicomputador destino es como una red totalmente conectada o un anillo. Cuando los gastos generales de inicio son altos, los horarios de la ETF son extremadamente pobres. As CLAUD requiere una heurstica de programacin diferente. Banda particin horarios del Diamante en tiras, la asignacin de cada tarea en una franja que el mismo procesador. Ellos fueron considerados por primera vez en [10] en relacin con un equilibrio entre la comunicacin y el tiempo de cmputo paralelo. Hemos encontrado un programa para la CLAUD Diamante dividida en franjas. Curiosamente, nuestra expresin para el makespan es una generalizacin de [11]. Hemos encontrado una serie de condiciones para un horario de [11] para ser el programa de Claud. Nuestros resultados experimentales, obtenidos en una superficie de Informtica Meiko con el sistema de mensaje de CS-Herramientas de paso, estn en un muy buen acuerdo con las predicciones obtenidas en el modelo de Claud, lo que confirma el valor prctico de Claud.El trabajo se organiza de la siguiente manera: en la Seccin 2 se da la definicin formal del modelo de Claud. En las secciones 3 y 4, nos encontramos con los horarios CLAUD para el Diamante dividida en lneas y rayas, respectivamente. En la Seccin 5 se comparan makespans para la lnea de banda y los horarios. Finalmente en la Seccin 6 se presentan los resultados experimentales sobre la evaluacin de la Diamond en una superficie de Informtica Meiko y compararlos con las predicciones analticas.2 El modelo ClaudSuponemos que se nos da un promedio ponderado del DAG, GT = (T, ET) cuyos nodos T son tareas de cmputo de la igualdad (la unidad) el tiempo de ejecucin, y los arcos ET = {(t, t ') | t <t', t, t 'es un elemento de T} representan la inmediata relacin de precedencia entre las tareas. Cada arco (t, t ') se le asigna un peso en peso, t,' es un elemento de Z [sup, +, sub 1], asociado con la cantidad de datos que se pasa entre estas tareas. El sistema multicomputador se representa como un grfico Gv = (V, VE), donde V es un conjunto de nodos y EV es un par desordenada (v, v '), v, v' es un elemento de V que representa un (bidireccional) enlace. Cada nodo consta de una memoria del procesador y locales. Un programa en el modelo de Claud es la pareja: un programa computacional ST y SC de comunicacin horario. El calendario de cmputo es un conjunto de triples ST CTXVX Z +, sub 0, donde el primer componente es una tarea, el segundo es un procesador que ejecuta la tarea y el tercero es el momento en que el procesador comienza a ejecutar la tarea. El horario de la comunicacin es un conjunto de tuplas SC CT | T | X T | T | x V x V x Z +, sub 0 x Z +, sub 0, donde los componentes de la primera y segunda son subconjuntos de tareas de T asignados en los procesadores especificados en el componente tercero y cuarto, correspondientemente. Los componentes tercero y cuarto especificar la v procesadores y "v, primeros datos de envo y recepcin de datos del segundo. Debe existir un vnculo entre la V y V 'en el GV. Los componentes de la quinta y sexta

especificar el momento en que el envo / recepcin se lleva a cabo. Deja Vu es un conjunto de subconjuntos de las tareas asignadas en los procesadores de un determinado programa de Carolina del Sur, a continuacin, Vu introduce una particin de T.Hay dos condiciones necesarias para que los conjuntos ST y SC para ser los horarios vlidos. (1) La particin debe ser vlida. Para probar si una particin, por ejemplo Vu, es vlido, se construye un grfico Gu = (Vu, UE), que consta de subconjuntos u como vrtices y arcos (u, u '), u, u' es un elemento de Vu si hay existe un arco en GT entre t es un elemento de U y t 'es un elemento de U'. Una particin es vlida si Gu es un DAG. (2) En ningn caso el tiempo mximo de una tarea se puede programar en cualquier procesador y un mximo de un mensaje puede estar en trnsito (en un sentido) a lo largo de estos vnculos.A continuacin se especifican los cargos para la comunicacin. El procesador se encarga de enviar unidades de lambdas de tiempo para iniciar la transmisin de datos. Cuando los datos han llegado al nodo, el procesador receptor est implicado en "limpieza" que se tarda unidades Lambdar de tiempo. Suponemos que todos los enlaces son idnticos cada capaz de transferir una unidad de informacin en unidades Tau de tiempo. Si q es una cantidad de datos que deben pasar entre dos nodos entonces Tau q es el tiempo de transmisin a lo largo del enlace.Ahora podemos establecer una conexin entre estas definiciones y un programa de comunicacin. Considere la posibilidad de la tupla (u, u ', v, v', z, z '). Esto significa que en el momento z procesador v inicia enviando al procesador v 'que inicia en el momento de recibir z'. La cantidad de datos transferidos entre estos procesadores es Sigma t <t ', t es un elemento de U, T' es un elemento u, Wt, t '. Decimos que la comunicacin asociada a la tupla se completa cuando los datos han llegado en el nodo y el procesador v 'ha terminado la "limpieza" asociado a esta tupla. Por tanto, el momento en que la comunicacin es completa es[Ecuacin de la lnea mltiple (s) no puede ser representado en forma de texto ASCII]Hacemos hincapi en que las comunicaciones que estamos tratando en el modelo de CLAUD son sin bloqueo, y no preferente (no interrumpible). Tambin CLAUD permite el solapamiento entre la actividad del procesador y la transferencia de datos a lo largo de los canales.As, el problema que tenemos es encontrar los horarios vlidos ST y SC, minimizando el tiempo para calcular el grfico GT en un multicomputador sistema GV. Nos referimos a este tiempo como un makespan. Este problema de programacin es NP duro; el problema de programacin se describe en [11] se puede obtener como un caso sub-programacin de nuestro problema si fijamos Tau = 0, Lambdar = 0, permiten una multicomputador tener nmero ilimitado de procesadores y permitir que el procesador para "transmitir" datos en tiempo Lambdas a las tareas de otros procesadores de computacin que tienen predecesores inmediatos dentro de un subconjunto de tareas calculadas por ese procesador. Este "simple" problema se ha demostrado que es NP duro [11]. En las secciones siguientes vamos a ser menos formal al describir los horarios de los problemas particulares, pero en realidad todos estos programas puede ser representado constantemente en trminos de la ST y SC.3 Lnea de Particin de la Diamond en el modelo de ClaudQue GT = (T, <) es el DAG Diamond con nodos N2 [10]. Los nodos y los arcos de la grfica se puede asociar con la de la de nxn rejilla rectangular. Los nodos se encuentran en los puntos de interseccin de las cuadrculas y los arcos conectar los nodos en la vecina intersecciones. Los bordes tienen la orientacin de la estacin con la cota ms pequea cartesiana de que con uno ms grande. El diamante con n = 6 se muestra en la Figura 1. Las tareas de T pueden ser identificados como T1, j, j = 0, ..., n - 1, donde el primer ndice se utiliza para el nmero de fila, y el segundo para el nmero de columna. Particin del diamante en las lneas, por ejemplo, en la direccin x. En [1] se ha demostrado que, dada una red totalmente conectada de p procesadores, los algoritmos

de la Fundacin genera una particin del diamante en las lneas, de modo que cada lnea se le asigna en algn procesador. Tambin se demostr que en la mayora de * (Este personaje no se puede convertir en texto ASCII) n / 1 + Tau * (Este personaje no se pueden convertir en texto ASCII) los procesadores pueden estar implicados en los clculos de forma simultnea, donde Tau es un retraso asociado con el paso de datos a lo largo del enlace desde un procesador a otro. La particin lneas puede ser descrito como sigue. Dado un sistema multicomputador de p procesadores, asignar la lnea inferior en algn procesador p0, la lnea anterior, el procesador P1 alguna, y as sucesivamente. Cuando el procesador calcula p0 tareas t [0, j,] j = 1, ..., n - 1 se inicia la transferencia de datos a p1 procesador que a su vez inicia la transferencia de datos a p2 procesador despus de que termine tareas de computacin t1, J, J = 0, ..., n - 1 y as sucesivamente.En CLAUD, el programa de comunicacin es diferente: cuando un procesador calcula un bloque de n / m, m> / = 1, las tareas de que comience la preparacin de datos para una transferencia (que realiza un Lambdas tiempo). Entonces se inicia la transferencia de datos al nodo que contiene un procesador de clculo de la lnea anterior. El procesador procede a calcular el bloque siguiente disponible inmediatamente, mientras que la transferencia de datos est en curso. Cuando los datos se reciben en el nodo receptor, el procesador en ese nodo realiza "limpieza", teniendo) Lambdar tiempo, y entonces est lista para comenzar a calcular un nuevo bloque.Se obtienen, a continuacin, un makespan de la lista anteriormente mencionada para la Diamond en azulejo CLAUD Modelo y encontrar un programa de comunicacin ptima bajo el supuesto de que m es el mismo para todos los procesadores. Para cualquier otro procesador que la lnea de computacin p0 0 y que una lnea de cmputo n - 1, el tiempo dedicado a calcular cualquier bloque en la lnea 1 hasta n - 2, ms asociado a l enviar y recibir de arriba es Rho = n / m + Lambda, donde Lambda = Lambda + Lambdar. Procesador de computacin p0 la primera lnea no recibe los datos de cualquier otro procesador, el procesador tambin el clculo de la ltima lnea no enva los datos a cualquier otro procesador. Es fcil ver que esto reduce el makespan por un valor de lambda solamente. En efecto, independientemente de la velocidad p0 calcula la lnea primera, la segunda lnea se calcula en el mismo tiempo. Adems, el procesador de clculo de la ltima lnea se sincroniza con el trabajo del procesador de clculo de la lnea anterior, por lo tanto, no puede terminar su trabajo ms rpido.Los bloques de la particin de las tareas de la Diamond en franjas verticales de tamao N / m. Un intervalo es la interseccin de una franja vertical con la lnea. El tiempo transcurrido desde el momento en que un procesador comienza a calcular un intervalo hasta que otro procesador comienza a calcular un intervalo en la franja vertical mismo es delta = Rho + Tau xn / m.Cuando el procesador P0 ha calculado m bloques en la lnea 0 se puede computate tareas en otra lnea, si existe. La lnea se calcula en Rho x tiempo m. La primera lnea est disponible en ese momento es [Rho m / Delta]. Esta expresin nos da el nmero mximo de procesadores pmx que se puede participar en los clculos de forma simultnea(1) pmx = m / 1 + n Tau / n + m lambda].Obviamente, si m = n = 0 y Lambda se obtiene la misma condicin que en [1] ha indicado anteriormente. El conjunto de tareas T = AUBUC se puede dividir en tres subgrupos que no se intersectan. Subconjunto B se compone de las tareas que se calculan cuando se = p 'min (p, pmx) procesadores estuvieron involucrados en los clculos de forma simultnea. Tareas de A y C se calculan cuando a lo sumo p '- 1 procesadores estn activos. Procesador calcula p0 (p '- 1) x Delta / Rho-bloques en el momento en que el procesador p' estarn involucrados en los clculos. En general, el procesador pi, i = 0 ... p "- 1 en la lnea i-sima calcula (p '- 1 - I) x Delta / Rho-bloques en ese momento. Los trabajos mismo anlisis para subconjunto C. Por lo tanto el nmero total de bloques que

comprende tareas en A y C es(2) [ecuacin de la lnea mltiple (s) no puede ser representado en forma de texto ASCII]Cuando las tareas de computacin de B todos los procesadores estn activos por lo tanto, cada uno de ellos se calcula el mismo nmero de bloques de z, el nmero total de bloques que consisten en tareas de B es zx p '. Por otro lado el nmero total de bloques en que se divide el diamante es nx m. Por lo tanto la ecuacin de equilibrio se cumple quez x P '+ Delta p' (p '- 1) / Rho = n x m,desde donde nos encontramos con z = nm / p '- Delta (p' - 1) / Rho. El Omegal makespan para el esquema descrito anteriormente se puede escribir comoOmegal = 2 Delta (p '- 1) + z Rho - Lambda.De hecho, el primer trmino representa el tiempo para las tareas informticas de la A y C, el segundo trmino para el clculo de las cuentas de tiempo de las tareas en B y el tercer trmino aparece por el hecho de que lnea de procesadores de computacin 0 no tiene recibir Lambdar los gastos generales y de lnea de computacin del procesador n - 1 no tiene enviar Lambdas generales. Sustituyendo z encontrado anteriormente obtenemos(3) [ecuacin de la lnea mltiple (s) no puede ser representado en forma de texto ASCII]Resolvemos para el caso 1 + Tau / Lambda << 1 que es una "prctica" la regin para los sistemas de paso de mensajes en los gastos generales de inicio dominan el tiempo necesario para pasar una unidad de informacin sobre el enlace. La ecuacin (3) nos permite encontrar el nmero de bloques de minimizar los sujetos Omegal a la condicin (1). El mnimo formal de (3) en m es(4) [ecuacin de la lnea mltiple (s) no puede ser representado en forma de texto ASCII]donde p '= min (p, pmx). Por otro lado de (1) se tiene la desigualdad pmx </ = m, lo cual contradice (4). Por lo tanto el tema formal de mnima restriccin (1) no es alcanzable. Lo mejor que podemos hacer es acercarnos al mnimo formal de la medida de lo posible, el calado = p 'n en (4). En este caso nos encontramos con(5) [ecuacin de la lnea mltiple (s) no puede ser representado en forma de texto ASCII]Es fcil comprobar que la condicin (1) sostiene que los trminos de orden inferior. Sustituyendo estos valores en (3) nos encontramos con el makespan ptimo para este sistema en el declarado "prctica" regin(6) = nx Omegal Lambda (1 + O (Tau / lambda) + O (1 / n))El algoritmo FEF se aplica a la del diamante calculada sobre un sistema multicomputador en la forma de una red totalmente conectada o un anillo se ha demostrado que generan unas lneas de particin del diamante con un calendario de comunicacin correspondiente a m = n en el anlisis anterior. Si Tau / Lambda << 1, entonces es fcil demostrar que el makespan de la ETF en el modelo de Claud es OmegaETF 2n = Lambda (1 + O (Tau / lambda) + O (1 / n)), que es dos veces ms ( 6).4 rayas de particionamiento de la DAG en el modelo Diamond-ClaudEn esta seccin encontramos por primera vez un makespan de un calendario para la Diamond dividido en franjas de igual ancho cada uno de los cuales se ha asignado en algunos procesadores en el modelo de Claud. Se demuestra que es el makespan (asintticamente) ptima hasta el factor de dos en el caso de Tau = 0.Particin del Diamante en rayas de n / k lneas cada uno, y asignar a cada banda a un procesador para el clculo. En cuanto a las particiones, la particin de lneas de cada banda en bloques rectangulares m de tamao n2 / (mK). Programar las comunicaciones entre los procesadores de computacin franjas adyacentes en el momento cuando el procesador termina calculando un rea rectangular. La cantidad de datos que se pasan a travs del enlace es igual a la cantidad de tareas que tienen sucesores inmediatos en un bloque adyacente, es decir n / m para una particin determinada y el calendario de la comunicacin. El retraso asociado con el paso de datos a travs del enlace es Tau xn / m. Un diagrama de Gantt de un programa de la Diamond dividido en franjas en el modelo de Claud se muestra en la Figura (3). Queremos encontrar el nmero ptimo de m bloques y rayas k minimizando un tema makespan a condicin de que todas las tendencias (bloques) son del mismo tamao. El nmero de bandas de k parte superior

limita el nmero de procesadores que pueden ser de computacin simultneamente. Se obtienen, a continuacin, el makespan para la Diamond y encontrar los valores ptimos para la M y K en el Tau regin / raz cuadrada de Lambda << 1 y encontrar el valor ptimo para el makespan. Se supone que el nmero de procesadores sea igual al nmero de bandas.En primer lugar observamos que el nodo con el procesador de cmputo de banda k - 1 recibe datos en tiempo (n2/mk + + Tau Lambda n / m) x (k - 1)-Lambdar. De hecho, el trmino multiplicativo primera es una suma de sobrecarga del procesador y el tiempo requerido para transferir datos a travs del enlace. Esto se debe repetir k - 1 hora. El Lambdar sobrecarga se debe restar debido a que la computacin en lnea de procesador 0 no recibe datos. Tan pronto como los datos ha pasado a travs del enlace del procesador computar la franja simo realiza alguna "limpieza", que lleva tiempo Lambdar y procede a la computacin del primer bloque en que raya. Este procesador est implicado en "limpieza" m veces, adems de que tiene que calcular m bloques que se toman m N2 / (km). Tambin cuenta con m estados de espera de duracin de Lambdar procesador de cmputo, porque la lnea k - 1 es el envo de datos una vez en el n2 / (mk) + intervalos de Lambda. Finalmente, no inicia el envo de datos asociados con el ltimo bloque. Por lo tanto tenemos la siguiente expresin para la Omegas makespan(7) Omega = (n2/mk + + Tau Lambda n / m) x (k - 1) + (+ n2/mk Lambda) m - Lambda,vlida en el intervalo 1 </ = k, m </ = n. Los valores ptimos de K y M se pueden encontrar a partir de ecuaciones de extrema de (7)(8) [ecuacin de la lnea mltiple (s) no puede ser representado en forma de texto ASCII]Comprobacin de que la segunda derivada en el punto extremo es negativo, llegamos a la conclusin de que hay un mnimo de Omegas en k (m) cuando m (k) es fijo. Damos una solucin de estas ecuaciones en la raz cuadrada de Lambda / n << 1 es decir, vlida para los diamantes lo suficientemente grandes y Tau / raz cuadrada de Lambda << 1 que se muestra es correcta en la seccin 6[Ecuacin de la lnea mltiple (s) no puede ser representado en forma de texto ASCII]Si Tau = 0, el diamante se divide en bloques cuadrados, granos llamados, cada una de las tareas de Lambda. Cuanto ms es Lambda cuanto mayor es el grano de la computacin. Lambda es una caracterstica de un multicomputador, midiendo su granularidad.Sustituyendo los valores ptimos de las rayas y los bloques en (7) nos encontramos con el makespan ptimo para la particin de rayas, con sujecin a la condicin de que K y M son las mismas(9) = 4n Omegas raz cuadrada de Lambda (1 + O ((Tau / raz cuadrada de Lambda) 2) + O (la raz cuadrada de Lambda / n))El modelo computacional de [11], supone un nmero ilimitado de procesadores y se supone que un procesador puede multidifusin a cualquier nmero de otros procesadores con Gamma retraso constante. Es fcil demostrar que el horario para la particin CLAUD rayas es un horario vlido para el modelo computacional de [11], siempre que Tau = 0, Lambdar = 0 y = Lambda Gamma. En [11], (pgina 327) se muestra que el algoritmo de planificacin genera un calendario de la pirmide (que es la mitad del diamante que consiste en las tareas de TI, ji + j> / = n - 1) de las tareas u con la makespan 2 raz cuadrada de u gamma, rayos gamma, donde se define como un retardo de comunicacin. Para el diamante el makespan es dos veces ms. Configuracin de u = n2, Gamma Lambda =, se obtiene la raz cuadrada de 4 n de Lambda que es igual a (9), por lo que nuestro horario es tambin ptima hasta el factor constante de dos.5 rayas en comparacin con lneasEn esta seccin se comparan las rayas y las particiones de lneas del diamante en dos casos: sistemas paralelos que tienen sobrecarga de arranque sustancial es decir, mucho ms que una unidad de tiempo necesario para calcular una tarea, y sistemas paralelos con gastos de inicio insignificante. Se demuestra que en las rayas el primer caso de particin conduce a Theta (raz cuadrada de Lambda) makespan veces ms pequeo que las lneas. Este caso

es de inters prctico. Se demuestra que el algoritmo [6] genera ptimas horarios cuando se aplica al modelo de Claud.Caso 1 >> Lambda y Tau / raz cuadrada de Lambda] << 1. En este caso de (6) y (9) se encuentra Omegal / Omegas = raz cuadrada de Lambda / 4 (1 + (Tau / raz cuadrada de Lambda) + O (1 / n)). Si Lambda es grande (lo cual es tpico en multicomputadoras paso de mensajes), entonces el makespan para la particin de las lneas se hace innecesaria mayor de lo que podra ser. Por tanto, el algoritmo de la ETF en el modelo de clculo CLAUD genera ptimas makespans. Esto significa que una heurstica nueva programacin tiene que ser desarrollada para el modelo de Claud.Caso Lambda = 0. En este caso de (3) y (7) se obtiene(10) Omegal = n2 / p '+ (p' - 1) (1 + Tau)(11) Omega = n2 / k + (k - 1) (n / c + Tau)Formalmente, el mnimo de (10) es posible cuando = p 'n / raz cuadrada de 1 + Tau. Sin embargo, no se puede llegar a causa de la restriccin k </ = n / 1 + Tau establecido anteriormente. Como Omegal es una funcin decreciente de p 'antes de que el mnimo oficial, el mnimo alcanzable corresponde a la mxima p', es decir, p '= n / 1 = Tau, en cuyo caso se obtiene Omegal = n + (n -1) x (1 + Tau). A continuacin se demuestra que este es el makespan mnimo posible, si 0 </ = Tau <1. En efecto, si Tau es dentro de esta regin la tarea ti +1, i +1 no puede ser evaluado antes de 1 + Tau con respecto a ti, i para todo i = 0, ..., n - 2. As, el makespan mnimo est dado por (n - 1) x (1 + Tau), ms el tiempo necesario para evaluar las tareas de TI n, ji = 0, ..., n - 1, es decir n + (n - 1) x (1 + Tau). Esta es la regin donde se encuentra la Fundacin el mejor esquema. Sin embargo, este no es el caso si Tau es grande. Si Tau = n - 1, entonces p '= 1, lo que significa que el diamante ser evaluado por un solo procesador en tiempo n2.6 Resultados experimentalesEn nuestra aplicacin, el clculo asociado a un vrtice de la Diamond incluye dos restas, multiplicaciones de dos y otra divisin, todas en el punto flotante de precisin doble. Tambin implica clculos para indexar arrays durante el ciclo. El clculo se llev a cabo en C en una en una superficie de Informtica Meiko contiene 20MHz Inmos transputers T800 con 20 Mbit / s enlaces a travs de chips de conmutacin Meiko. El tiempo promedio para calcular un vrtice se ha encontrado igual a 43,3 s Mu. Esto debe ser considerado como una unidad de tiempo. Todos los valores de tiempo otros se normaliz con respecto a la unidad de tiempo.Con el fin de coincidir con el cmputo de la programacin rayas y la particin de mensaje igual de tampn, se codifica como un bucle exterior durante m bloques que forman una banda, un bucle centro sobre la N / m tiras de un bloque, y un interior lazo sobre n / k vrtices de una tira. Cada banda fue asignado a un procesador diferente. Procesadores asignadas franjas adyacentes fueron conectados por un enlace transputer fsico. Los arreglos fueron dispuestos de manera que los ltimos elementos de cada tira eran contiguas en la memoria. Estos elementos fueron enviados en los mensajes de longitud n / m utilizando las llamadas de comunicacin ponen en el circuito exterior.La comunicacin se efectuar mediante las llamadas del CSN en Meiko CS-herramientas de la versin 1.19. Los mensajes fueron enviados por el CSN no-bloqueo (subrayado) txnb llama inmediatamente precedido (en todos menos al primero de cada procesador) por una prueba de ensayo CSN (subrayado) para su conclusin. A final de CSN (subrayado) prueba fue realizada por cada procesador. Se han recibido mensajes mediante el bloqueo de CSN (subrayado) llamadas rx. Cada una de estas llamadas de enviar y recibir fue rodeado por una pequea "contenedor" para probar su estado de retorno.Mensaje enviar y recibir los gastos generales se midieron por cronometrar un gran bucle, y la medicin de la extensin a la que el tiempo cuando los mensajes se estaban repetidamente enviado o recibido de los procesadores adyacentes durante el bucle. Los valores incluyen una pequea sobrecarga (alrededor del 25 Mu s) asociado con los "envoltorios". Los valores experimentales son = Lamda s 270 s Mu, Mu Lambdar =

205.Tau corresponde a la recproca de la anchura de banda disponible entre los procesadores adyacentes para mensajes asintticamente grandes. Este se calcula midiendo el tiempo necesario para repetir un mensaje de un megabyte entre los procesadores adyacentes y restando el tiempo necesario hacerse eco de un mensaje de un byte. El resultado fue dividido por 2 x (220 - 1). Esto le dio un valor que (debido a los caprichos del hardware Meiko) depende un poco a la par de procesadores fsicos a los que los procesos se asignan. Aunque el elemento de datos correspondiente al arco es un flotador de 64 bits, citamos tau en Mu s / byte, Tau Mu = 0,775 s / bytes. Hemos considerado n x n Diamante, donde n = 240. Ahora estamos en condiciones de verificar que las condiciones Tau / raz cuadrada Lambda << 1 y la raz cuadrada de Lambda / n << 1 son verdaderas. De (8) se encuentra que el nmero de procesadores minimizando el makespan y el nmero ptimo de la bloques son 80. La figura 4 muestra aa makespan (7) frente a dos parmetros: rayas (nmero de procesadores) y el nmero de bloques. La figura 5 ofrece una comparacin de rendimiento previsto obtenido utilizando (7) y observado en los experimentos. La diferencia entre el rendimiento previsto y observado es inferior a cinco por ciento de los valores absolutos. Ms resultados experimentales, en particular, el rendimiento en comparacin con el nmero de bloques para un nmero dado de procesadores se pueden encontrar en [8].7 ConclusinClaud se deriva como un modelo para multicomputadoras paso de mensajes con las interconexiones arbitraria, posiblemente irregular, entre los nodos. La principal diferencia entre los modelos CLAUD y de alto nivel como LogP y BSP es que estos modelos abstractos fuera de la red subyacente, mientras que CLAUD no lo hace. Por ejemplo, en LogP el parmetro L (la latencia) es el mismo para cualquier par de procesadores de comunicacin, que slo pueden ser completamente cierto para las redes conectadas. Para redes con dimetro logartmica como el hipercubo, mariposa, etc, o dimetro polinomio, por ejemplo mallas, esto slo puede ser cierto si el tamao de una red es lo suficientemente pequeo es decir, cuando la sobrecarga de inicio dominan sobre L. Aunque esto es vlido para una amplia gama de multicomputadoras como CRAY-3D y SP2, donde la hoja de ruta de hardware es rpido y su sobrecarga es pequea comparada con la sobrecarga de inicio, no es el caso con multicomputadoras con paso de mensajes tales como transputer basado superficie Computacin Meiko o una red distribuida de estaciones de trabajo. Cuando estos multicomputadoras operan bajo un sistema de paso de mensajes como MPI o PVM, la sobrecarga efectiva puesta en marcha de un paquete transmitido entre dos puntos es Lambda x el nmero de saltos, donde lambda = Lambdar + Lambda. En muchos casos este hecho es crucial para optimizar el rendimiento de los algoritmos.Claud ha demostrado ser un modelo justo para ambos optimizar y predecir el comportamiento de una clase de algoritmos de programacin dinmica con la primaca del diamante DAG entre las tareas. Este DAG tiene una estructura regular. Dado un grafo irregular o irregulares interconexiones entre los nodos, el anlisis ser mucho ms complicado. Basndose en esta sugerimos CLAUD como un modelo para la programacin heurstica, sin embargo, tambin puede ser utilizado para disear eficientes problemas algortmicos esqueletos orientados.Hemos llevado a cabo los pasos en el diseo de un mtodo heurstico de programacin basada en los principios establecidos en [6], donde la red subyacente se puede especificar pero no hay ningn parmetro que se puede asociar con la sobrecarga de puesta en marcha, y [11], donde la latencia de la comunicacin de bloqueo se puede interpretar como la puesta en marcha por encima.DIAGRAMA: Figura 1: El DAG DiamanteGRFICO: Figura 2: Conjunto de tareas T = AUBUC dividido en tres subgrupos que no se intersectan.GRFICO: Figura 3: diagonal bloques sombreados estn asociados con la actividad del procesador en la informtica del bloque de n2 / (mk) tareas, horizontal / punto sombreadas

corresponden a los bloques de procesador de envo / recepcin de gastos de inicio. Procesador de computacin primera (ltima) de banda tiene estados de inactividad.GRFICO: Figura 4: makespan en funcin del nmero de bandas K y M bloques, para n = 240, Lambda = 475, Tau = 0,775, y la Omega = 43,3.GRFICO: Figura 5: Rendimiento con 80 procesadores: observado (cruces) vs previstos (lnea).

You might also like