Code

GRASSE SON O LE CO DE DELLE ALLITTE RAZIO NI
Riccardo Luccio Dipartimento di Psicologia Gaetano Kanizsa, Universit di Trieste Introduzione Ogni studente di statistica apprende dai suoi manuali che le variabili casuali si distribuiscono in natura in modo pi o meno approssimato secondo una serie di leggi, di cui le pi comuni dovrebbero essere la distribuzione gaussiana, o la distribuzione di Poisson (per eventi relativamente rari). Pi formalmente, si parla di leggi di probabilit (o di densit di probabilit, per le variabili continue), per cui, detta ! una variabile, e detti X i valori che questa variabile pu assumere, la legge | Z ( X ! ) (dove rappresenta i parametri, appartenenti a uno spazio dei parametri, della legge). Per esempio, nel caso della normale, i parametri sono notoriamente la media e la deviazione standard . In realt, come abbiamo detto, normale e poissoniana sono tuttaltro che le uniche forme che possono assumere queste distribuzioni. Frequentissime sono le distribuzioni asimmetriche, dalla gamma, alla beta, alla Weibull, e chi ne ha pi ne metta. Ma frequentissime sono delle distribuzioni che per la loro peculiare forma vengono dette a coda grassa o pesante o lunga (fat o heavy o long tail). Di queste, la prima ad essere stata scoperta probabilmente quella oggi nota come legge di Benford (Benford, 1937), in realt enunciata per la prima volta dallastronomo Simon Newcomb (1881), e che afferma che la probabilit che la prima cifra significativa (e cio, diversa da 0) di un numero sia d data da
1$ ! p ( d ) = log10 # 1 + & . " d%

(Per una storia della legge di Benford, vedi Raimi, 1969; Hill, 1998; per le sue basi statistico-matematiche, Hill, 1995, 1996; per le sue applicazioni, per esempio nella rilevazione delle frodi i frodatori nel dare cifre fasulle non rispettano la legge Ley, 1996; Nigrini, 1996). La Fig. 1 mostra la rappresentazione grafica della legge di Benford, e rende evidente il motivo per cui distribuzioni di questo tipo vengono designate in rapporto alla grande coda che esibiscono.
FIGURA 1 La legge di Benford Forse la pi famosa coda grassa data dalla legge di Pareto (1896), relativa alla distribuzione dei ben in una popolazione. Una forma particolare della distribuzione di Pareto data dalla cosiddetta legge di Lorenz (1905). La legge di Pareto espressa da una funzione potenza:
p ( x) =
k kx m
x k +1
dove xm la quantit minima di beni possedibili (comunque xm > 0), e il parametro k, che determina la forma della distribuzione, anchesso positivo. p ( x ) la probabilit di possedere lammontare x dei beni, che pu essere espressa in termini di frazione della popolazione che possiede tale ammontare. La legge di Pareto prende anche il nome di principio dell80 a 20, in base a cui il 20% della popolazione possiede l80% dei beni. Di pi, il 20% di questo 80 possiede a sua volta l80% dei beni residui, e cos via1. La legge di Pareto rappresentata nella
Una versione popolare di un principio analogo quella che viene attribuita allo scrittore di fantascienza Theodore Sturgeon, come principio del 90 a 10. A chi gli diceva che
Fig. 2, e come si vedeva un andamento a coda grassa analogo a quello della legge di Benford.
FIGURA 2 La legge di Pareto
Come detto, la legge di Lorenz rappresenta una forma particolare della distribuzione di Pareto. Uno dei modi in cui viene espressa la seguente:
p ( x) =
a " x!b% $ ' +1 # c &

2
dove i parametri rilevanti sono b e c, mentre a solo un parametro di scala. Nel 1912 litaliano Corrado Gini propose il calcolo di un coefficiente, dato dalla frazione dellarea compresa tra una retta inclinata a 45% e lasse delle ascisse al di sopra della curva di Lorenz se trasformato in percentuale, esso assume il nome di coefficiente di Gini. Questa proposta fu accolta con entusiasmo dagli economisti a partire dal 1921, quando Gini la ripropose in inglese, ed oggi il pi diffusa indice di disuguaglianza economica (vedi Fig. 3). Accanto alla legge di Pareto, laltra distribuzione a coda grassa di pi ampia notoriet certamente la legge che mette in relazione rango di frequenza delle parole di un testo e numerosit delle classi di rango, proposta per la prima
la fantascienza spazzatura, rispose che questa opinione era vera ma solo limitatamente al 90% dei testi di fantascienza. Ma che del resto in ogni cosa il 90% spazzatura.
volta nel 1924 dal linguista americano George Kingsley Zipf, e che da lui prese il nome.
FIGURA 3 La legge di Lorenz e lindice di Gini.
Si tratta di una funzione potenza quasi iperbolica, della forma
f (r) !
1 , rk
dove r il rango di una classe di frequenza, f ( r ) la sua frequenza, k una costante prossima ad 1 (vedi Fig. 4). Secondo Zipf (1949) la spiegazione di questo andamento andava data in termini che oggi diremmo di euristica della disponibilit (Kahneman e Tverski, 1973): le parole pi frequenti vengono pi facilmente alla mente, e vengono prodotte secondo una legge di minimo sforzo. Se le leggi di Benford, Pareto e Zipf sono le pi popolari nella larga serie delle distribuzioni che code grasse, tante altre sono le leggi proposte, con forme simili (molto spesso, da una serie empirica di dati si ottengono leggi estremamente simili, con adattamenti di bont talmente prossima che non esiste un criterio sicuro per distinguere una distribuzione da unaltra). Citiamo cos alla rinfusa la legge di Heap(1978), che afferma che dato un testo composto da n parole, il vocabolario v, e cio il numero di parole diverse che contiene, dato da
v = an b ,
dove a e b sono costanti, con a compreso (per linglese) tra 10 e 100, e b compreso tra 0 e 1 (vedi Fig. 5).
FIGURA 4 La legge di Zipf.
FIGURA 5 La legge di Heap.
Popolarissima tra i bibliotecari, ma in realt debolissima dal punto di vista empirico e poco giustificabile dal punto di vista statistico poi la legge di Bradford (1950), che afferma che date delle riviste in un certo campo (linteresse di Bradford era per le riviste scientifiche), gli articoli contenuti potevano essere divisi in parti pi o meno uguali, di cui la prima contenuta in un piccolo nucleo di riviste, il secondo in un gruppo pi ampio, il terzo nel quadrato del numero del secondo, , e cos via, in una progressione di potenze 0, 1, 2 , e quindi in un rapporto di 1:n:n2 (vedi Garfield, 1971, 1980).
Bibliografia
Ash, R. B. (1965) Information Theory. Wiley, New York. Aubin, J.-P. (1993). Optima and equilibria. An introduction to nonlinear analysis. Berlin: Springer. Balasubrahmanyan, V. K. & Naranan, S. (1996) J. Quant. Linguist., 3, 177228. Benford, F. (1938) The law of anomalous numbers. Proceedings of the American Philosophical Society, 78, 551-572. Bickerton, D. (1990) Language and Species. Chicago Univ. Press, Chicago. Binney, J., Dowrick, N., Fisher, A. & Newman, M. (1992) The Theory of Critical Phenomena: An Introduction to the Renormalization Group. Oxford Univ. Press, New York. Bradford SC. (1950). Documentation. Washington, DC: Public Affairs Press. Castillo, E, Hadi, A. S. & Sarabia, J. M.(1998), A Method for Estimating Lorenz Curves, Communication Statistics-Theory Meth., 27(8), 2037-2063. Chomsky, N. (1968) Language and Mind. New York: Harcourt, Brace, and World. Cohen, A., Mantegna, R. N. & Havlin, S. (1997) Fractals 5, 95104.
Cover, T.M. and J.A. Thomas, (1991). Information Theory, New York: Wiley. Csiszr, I. (1975). I-divergence geometry of probability distributions and minimization problems. Ann. Probab., 3, 146-158. Csiszr, I. (1984). Sanov property, generalized I-projection and a conditional limit theorem. Ann. Probab., 12, 768-793. Deacon, T. W. (1997). The Symbolic Species: The Co-evolution of Language and the Brain. Norton & Company, New York. Ellis, S. R. & Hitchcock, R. J. (1986) IEEE Trans. Syst. Man Cybern. 16, 423 427. Estoup, J. B. (1902). Gammes stnographique. Paris: Institut Stnographique. Ferrer i Cancho, R. & Sole, R. V. (2002) Adv. Complex Syst. 5, 16. Gallager, R.G. (1968). Information Theory and Reliable Communication. New York, NY: Wiley. Garfield, E. (1971). The mystery of the transposed journal lists. Current Contents, 17, 222-223. Garfield, E. (1980). Bradfords law and related statistical patterns. Current Contents, 19, 5-12. Gernsbacher, M. A., ed. (1994). Handbook of Psycholinguistics. Academic, San Diego. Gini, C. (1912). Variabilit e Mutabilit. Bologna: Tip. Cuppini. Gini, C. (1914). Sulla misura della concentrazione e della variabilit a dei caratteri. Atti del Regio Istituto Veneto di Scienze, Lettere ed Arti, 73, 12031248. Gini, C. (1921). Measurement of inequality of incomes. The Economic Journal, 31, 124126. Hardy, G.H., & Riesz, M. (1915). The general Theory of Dirichlet's series. Cambridge: Cambridge University Press. Harremos, P. (2001). Binomial and Poisson Distributions as Maximum Entropy Distributions. IEEE Trans. Inform. Theory, 47, 2039-2041,. Harremos, P., & Topse, F. (2001). Maximum Entropy Fundamentals, Entropy, 3, 191-226. Harremos, P., & Topse, F. (2002). Zipf's law, hyperbolic distributions and entropy loss. ISIT, Lausanne. Hauser, M. D.. 1996) The Evolution of Communication. Cambridge, MA: MIT Press. Haussler, D. (1997). A general Minimax Result for Relative Entropy. IEEE Trans. Inform. Theory, 43, 1276-1280,.
Heaps, H. S. (1978). Information Retrieval - Computational and Theoretical Aspects. New York: Academic Press. Hill, T. (1995) Base-invariance implies Benford's law. Proceedings of the American Mathematical Society 123, 887-895. Hill, T. (1996) A statistical derivation of the significant-digit law, Statistical Science 10, 354-363. Hill, T. (1998). The first digit phenomenon. American Scientist, 86. 358-. Hung, Y.S. & Bier, V.M.(1998), A Natural Conjugate Prior for the nonhomogeneous Poisson Process with a Power Law Intensity Function, Communication Statistics-Simulation, 27(2), 525-551. Jaynes, E. T. (1957). Information Theory and Statistical Mechanics. I and II. Physical Reviews, 106, 620-630, 108, 171-190,. Jaynes, E. T. (1989). Clearing up mysteries - The original goal. in: J. Skilling (ed.). Maximum Entropy and Bayesian Methods. Dordrecht: Kluwer. Johnson, N.L. & Kotz, S.(1970), Continuous Univariate Distributions-2, Houghton Mifflin Company, Boston. Kahneman, D. and Tverski, A. (1973). On the psychology of prediction. Psychological Review, 80, 237-251. Kapur, J.N. (1993). Maximum Entropy Models in Science and Engineering. New York: Wiley. Kazakos, D. (1983). Robust Noiceless Source Coding Through a Game Theoretic Approach. IEEE Trans. Inform. Theory, 29, 577-583,. Khler, R. (1986) Zur Linguistischen Synergetik: Struktur und Dynamik der Lexik., Bochum:. Brockmeyer. Kuan, Xu (2003). (How Has the Literature on Ginis Index Evolved in the Past 80 Years?) China Economic Quarterly, 2, 757-778. (Engl. vers. http://economics.dal.ca/RePEc/dal/wparch/howgini.pdf) Kullback, S. (1959). Information Theory and Statistics. New York: Wiley,. Li, W. (1992) IEEE Trans. Inf. Theor. 38, 18421845. Lorenz, M. O. (1905). Methods of measuring the concentration of wealth. Journal of the American Statistical Association Publication, 9, 209-219. Mandelbrot, B. B. (1961). On the theory of word frequencies and on related Markovian models of discourse, in: R. Jacobsen (ed.): Structures of Language and its Mathematical Aspects. New York, NY: American Mathematical Society. Mandelbrot, B.B. 1966) in Readings in Mathematical Social Sciences, eds. Lazarsfield, P. F & Henry, N. W.. MIT Press, Cambridge, MA), pp. 151 168.
Mandelbrot, S. (1969). Series de Dirichlet. Paris: Gauthier-Villars,. Miller, G. (1981) Language and Speech. Freeman, San Francisco. Miller, G. A. & Chomsky, N.. 1963) in Handbook of Mathematical Psychology, eds. Luce, R. D., Bush, R. & Galanter, E.. Wiley, New York), Vol. 2. Miller, G. A. (1957) Am. J. Psychol. 70, 311314. Moothathu, T. S. K.(1990), The Best Estimator of Lorenz Curve, Gini Index and Theil Entropy Index of Pareto Distribution, Sankhya, Series B, 52, 115127. Naranan, S. & Balasubrahmanyan, V. (1998) J. Quant. Linguist. 5, 3561. Newcomb, S. (1881). Note on the frequency of use of the different digits in natural numbers. American Journal of Mathematics, 4, 39-40. Nicolis, J. S. (1991). Chaos and Information Processing. Singapore: World Scientific. Nigrini, M. (1996) A taxpayer compliance application of Benford's law. Journal of the American Taxation Association, 18, 72-91. Nowak, M. A. & Krakauer, D. C. (1999) Proc. Natl. Acad. Sci. USA 96, 80288033. Nowak, M. A., Plotkin, J. B. & Jansen, V. A.. 2000) Nature 404, 495498. Nowak, M. A., Plotkin, J. B. & Krakauer, D. C. (1999) J. Theor. Biol. 200, 147162. Pareto, V. (1896). Cours d'economie politique. Geneva: Droz. Petruszewycz, M. (1973). Lhistoire de la loi dEstoup-Zipf: Documents. Mathmatiques et Sciences Humaines, 44, 41-56. Pietronero, L., Tosatti, E., Tosatti, V. & Vespignani, A. (2001) Physica A, 293, 297304. Pinker, S. & Bloom, P. (1990) Behav. Brain Sci. 13, 707784. Raimi, R. (1969) The peculiar distribution of first digits. Scientific American, December, 109-119. Reader, S. M. & Laland, K. N. (2002) Proc. Natl. Acad. Sci. USA 99, 4436 4441. Rohatgi, V.K.(1976), An Intriduction to Probability Theory and Mathematical Statistics, John Wiley & Sons, New York. Schroeder, M. (1991). Fractals, Chaos, Power Laws. New York: W. H. Freeman,. Shannon, C. E. (1951). Prediction and entropy of printed english. Bell Systems Technological Journal, 30, 50-64. Simon, H. A. (1955) Biometrika, 42, 425440.
Sol, R. V., Manrubia, S. C., Luque, B., Delgado, J., & Bascompte, J. (1996) Complexity, 1, 1326. Steels, L. (1996) in Proceedings of the 5th Artificial Life Conference, ed. Langton, C. AddisonWesley, Redwood, CA. Topse, F. (1979). Information theoretical Optimization Techniques. Kybernetika, 15, 8-27. Topse, F. (1993). Game theoretical equilibrium, maximum entropy and minimum information discrimination. in A. Mohammad-Djafari and G. Demoments (eds.), Maximum Entropy and Bayesian Methods, 15-23, Kluwer: Dordrecht. Topse, F. (2001). Basic Concepts, Identities and Inequalities - the Toolkit of Information Theory. Entropy, 3, 162-190. Ujhelyi, M. (1996) J. Theor. Biol. 180, 7176. Zipf, G. K. (1949). Human Behavior and the Principle of Least Effort. Cambridge, MA: Addison-Wesley.
http://bayes.wustl.edu [ONLINE] - a web page dedicated to Edwin T. Jaynes, maintained by L. Brethorst.

Code

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Code

Uploaded by

Copyright:

Available Formats

GRASSE SON O LE CO DE DELLE ALLITTE RAZIO NI

1$ ! p ( d ) = log10 # 1 + & . " d%

FIGURA 2 La legge di Pareto

a " x!b% $ ' +1 # c &

FIGURA 3 La legge di Lorenz e lindice di Gini.

Si tratta di una funzione potenza quasi iperbolica, della forma

FIGURA 4 La legge di Zipf.

FIGURA 5 La legge di Heap.

http://bayes.wustl.edu [ONLINE] - a web page dedicated to Edwin T. Jaynes, maintained by L. Brethorst.

You might also like