Formato de punto flotante de precisión simple

El formato de punto flotante de precisión simple (a veces llamado FP32 o float32 ) es un formato de número de computadora , que generalmente ocupa 32 bits en la memoria de la computadora ; representa un amplio rango dinámico de valores numéricos mediante el uso de un punto de base flotante .

Una variable de coma flotante puede representar un rango de números más amplio que una variable de coma fija del mismo ancho de bits a costa de la precisión. A firmado 32 bits número entero variable tiene un valor máximo de 2 ³¹ - 1 = 2147483647, mientras que un 754 IEEE variable de punto flotante en base 2 de 32 bits tiene un valor máximo de (2 - 2 ^-23 ) x 2 ¹²⁷ ≈ 3,4028235 × 10 ³⁸ . Todos los enteros con 7 o menos dígitos decimales, y cualquier 2 ⁿ para un número entero −149 ≤ n ≤ 127, se pueden convertir exactamente en un valor de punto flotante de precisión simple IEEE 754.

En el estándar IEEE 754-2008 , el formato base 2 de 32 bits se denomina oficialmente binary32 ; se llamó single en IEEE 754-1985 . IEEE 754 especifica tipos de punto flotante adicionales, como doble precisión base 2 de 64 bits y, más recientemente, representaciones base 10.

Uno de los primeros lenguajes de programación en proporcionar tipos de datos de punto flotante de precisión simple y doble fue Fortran . Antes de la adopción generalizada de IEEE 754-1985, la representación y las propiedades de los tipos de datos de punto flotante dependían del fabricante y el modelo de la computadora, y de las decisiones tomadas por los diseñadores de lenguajes de programación. Por ejemplo, el tipo de datos de precisión simple de GW-BASIC era el formato de coma flotante MBF de 32 bits .

La precisión simple se denomina REAL en Fortran , ^[1] SINGLE-FLOAT en Common Lisp , ^[2] float en C , C ++ , C # , Java , ^[3] Float en Haskell , ^[4] y Single en Object Pascal ( Delphi ), Visual Basic y MATLAB . Sin embargo, float en Python , Ruby , PHP y OCaml y single en versiones de Octave anteriores a 3.2 se refieren a números de doble precisión . En la mayoría de las implementaciones de PostScript y algunos sistemas integrados , la única precisión admitida es simple.

Formato de coma flotante binario de precisión simple IEEE 754: binary32

El estándar IEEE 754 especifica que un binary32 tiene:

Bit de signo : 1 bit
Ancho de exponente : 8 bits
Precisión significativa : 24 bits (23 almacenados explícitamente)

Esto da una precisión de 6 a 9 dígitos decimales significativos . Si una cadena decimal con un máximo de 6 dígitos significativos se convierte a una representación de precisión simple IEEE 754 y luego se vuelve a convertir a una cadena decimal con el mismo número de dígitos, el resultado final debe coincidir con la cadena original. Si un número de precisión simple IEEE 754 se convierte en una cadena decimal con al menos 9 dígitos significativos y luego se vuelve a convertir a una representación de precisión simple, el resultado final debe coincidir con el número original. ^[5]

El bit de signo determina el signo del número, que también es el signo del significando. El exponente es un entero sin signo de 8 bits de 0 a 255, en forma sesgada : un valor de exponente de 127 representa el cero real. Los exponentes van de −126 a +127 porque los exponentes de −127 (todos 0) y +128 (todos 1) están reservados para números especiales.

El verdadero significado incluye 23 bits de fracción a la derecha del punto binario y un bit principal implícito (a la izquierda del punto binario) con valor 1, a menos que el exponente se almacene con todos los ceros. Por lo tanto, solo aparecen 23 bits de fracción del significado en el formato de memoria, pero la precisión total es de 24 bits (equivalente a log ₁₀ (2 ²⁴ ) ≈ 7.225 dígitos decimales). Los bits se distribuyen de la siguiente manera:

Float example.svg

El valor real asumido por un dato binario32 de 32 bits dado con un signo dado , exponente sesgado e (el entero sin signo de 8 bits) y una fracción de 23 bits es

{\ Displaystyle (-1) ^ {b_ {31}} \ times 2 ^ {(b_ {30} b_ {29} \ dots b_ {23}) _ {2} -127} \ times (1.b_ {22 } b_ {21} \ puntos b_ {0}) _ {2}}

,

cuyos rendimientos

{\ Displaystyle {\ text {value}} = (- 1) ^ {\ text {sign}} \ times 2 ^ {(E-127)} \ times \ left (1+ \ sum _ {i = 1} ^ {23} b_ {23-i} 2 ^ {- i} \ right).}

En este ejemplo:

${\ Displaystyle {\ text {sign}} = b_ {31} = 0}$ ,
${\ displaystyle (-1) ^ {\ text {sign}} = (- 1) ^ {0} = + 1 \ in \ {- 1, + 1 \}}$ ,
${\ Displaystyle E = b_ {30} b_ {29} \ dots b_ {23} = \ sum _ {i = 0} ^ {7} b_ {23 + i} 2 ^ {+ i} = 124 \ in \ { 1, \ ldots, (2 ^ {8} -1) -1 \} = \ {1, \ ldots, 254 \}}$ ,
${\ displaystyle 2 ^ {(E-127)} = 2 ^ {124-127} = 2 ^ {- 3} \ in \ {2 ^ {- 126}, \ ldots, 2 ^ {127} \}}$ ,
${\ Displaystyle 1.b_ {22} b_ {21} ... b_ {0} = 1 + \ sum _ {i = 1} ^ {23} b_ {23-i} 2 ^ {- i} = 1 + 1 \ cdot 2 ^ {- 2} = 1.25 \ in \ {1,1 + 2 ^ {- 23}, \ ldots, 2-2 ^ {- 23} \} \ subset [1; 2-2 ^ {- 23}] \ subconjunto [1; 2)}$ .

por lo tanto:

${\ Displaystyle {\ text {valor}} = (+ 1) \ times 2 ^ {- 3} \ times 1.25 = + 0.15625}$ .

Nota:

${\ Displaystyle 1 + 2 ^ {- 23} \ aproximadamente 1.000 \, 000 \, 119}$ ,
${\ Displaystyle 2-2 ^ {- 23} \ aproximadamente 1.999 \, 999 \, 881}$ ,
${\ Displaystyle 2 ^ {- 126} \ approx 1.175 \, 494 \, 35 \ times 10 ^ {- 38}}$ ,
${\ Displaystyle 2 ^ {+ 127} \ aproximadamente 1.701 \, 411 \, 83 \ times 10 ^ {+ 38}}$ .

Codificación de exponentes

El exponente de coma flotante binario de precisión simple se codifica utilizando una representación binaria de compensación , siendo la compensación cero 127; también conocido como sesgo de exponente en el estándar IEEE 754.

E _min = 01 _H −7F _H = −126
E _máx = FE _H −7F _H = 127
Sesgo de exponente = 7F _H = 127

Por lo tanto, para obtener el verdadero exponente definido por la representación binaria de compensación, la compensación de 127 debe restarse del exponente almacenado.

Los exponentes almacenados 00 _H y FF _H se interpretan especialmente.

Exponente	fracción = 0	fracción ≠ 0	Ecuación
00 _H	cero	número subnormal	${\ displaystyle (-1) ^ {signo} \ times 2 ^ {- 126} \ times 0.fraction}$
01 _H , ..., FE _H	valor normal		${\ displaystyle (-1) ^ {signo} \ times 2 ^ {exponent-127} \ times 1.fraction}$
FF _H	± infinito	NaN (silencioso, señalización)

El valor normal positivo mínimo es ${\ Displaystyle 2 ^ {- 126} \ aproximadamente 1,18 \ times 10 ^ {- 38}}$ y el valor mínimo positivo (subnormal) es ${\ Displaystyle 2 ^ {- 149} \ aproximadamente 1,4 \ times 10 ^ {- 45}}$ .

Conversión de representación decimal a formato binary32

En general, consulte el propio estándar IEEE 754 para la conversión estricta (incluido el comportamiento de redondeo) de un número real a su formato binary32 equivalente.

Aquí podemos mostrar cómo convertir un número real en base 10 a un formato IEEE 754 binary32 usando el siguiente esquema:

Considere un número real con un entero y una fracción como 12,375
Convertir y normalizar la parte entera en binario
Convierta la parte fraccionaria usando la siguiente técnica como se muestra aquí
Agregue los dos resultados y ajústelos para producir una conversión final adecuada

Conversión de la parte fraccionaria: Considere 0.375, la parte fraccionaria de 12.375. Para convertirlo en una fracción binaria, multiplique la fracción por 2, tome la parte entera y repita con la nueva fracción por 2 hasta que se encuentre una fracción de cero o hasta que se alcance el límite de precisión, que son 23 dígitos de fracciones para el formato IEEE 754 binary32 .

{\ Displaystyle 0.375 \ times 2 = 0.750 = 0 + 0.750 \ Rightarrow b _ {- 1} = 0}

, la parte entera representa el dígito de la fracción binaria. Vuelva a multiplicar 0,750 por 2 para continuar.

{\ Displaystyle 0.750 \ times 2 = 1.500 = 1 + 0.500 \ Rightarrow b _ {- 2} = 1}

{\ Displaystyle 0.500 \ times 2 = 1.000 = 1 + 0.000 \ Rightarrow b _ {- 3} = 1}

, fracción = 0.011, terminar

Vemos eso ${\ Displaystyle (0.375) _ {10}}$ se puede representar exactamente en binario como ${\ Displaystyle (0.011) _ {2}}$ . No todas las fracciones decimales se pueden representar en una fracción binaria de dígitos finitos. Por ejemplo, el decimal 0.1 no se puede representar en binario exactamente, solo aproximado. Por lo tanto:

{\ displaystyle (12,375) _ {10} = (12) _ {10} + (0,375) _ {10} = (1100) _ {2} + (0,011) _ {2} = (1100,011) _ {2} }

Dado que el formato binary32 IEEE 754 requiere que los valores reales se representen en ${\ Displaystyle (1.x_ {1} x_ {2} ... x_ {23}) _ {2} \ times 2 ^ {e}}$ formato (consulte Número normalizado , Número desnormalizado), 1100.011 se desplaza a la derecha en 3 dígitos para convertirse ${\ Displaystyle (1.100011) _ {2} \ times 2 ^ {3}}$

Finalmente podemos ver que: ${\ displaystyle (12.375) _ {10} = (1.100011) _ {2} \ times 2 ^ {3}}$

De lo que deducimos:

El exponente es 3 (y en la forma sesgada es por lo tanto ${\ Displaystyle 130 = 1000 \ 0010}$ )
La fracción es 100011 (mirando a la derecha del punto binario)

A partir de estos, podemos formar la representación en formato binary32 IEEE 754 de 32 bits resultante de 12.375:

{\ displaystyle (12,375) _ {10} = (0 \ 10000010 \ 10001100000000000000000) _ {2} = (41460000) _ {16}}

Nota: considere convertir 68.123 al formato IEEE 754 binary32: utilizando el procedimiento anterior, espera obtener ${\ Displaystyle ({\ text {42883EF9}}) _ {16}}$ siendo los últimos 4 bits 1001. Sin embargo, debido al comportamiento de redondeo predeterminado del formato IEEE 754, lo que obtiene es ${\ Displaystyle ({\ text {42883EFA}}) _ {16}}$ , cuyos últimos 4 bits son 1010.

Ejemplo 1: Considere el decimal 1. Podemos ver que: ${\ Displaystyle (1) _ {10} = (1.0) _ {2} \ times 2 ^ {0}}$

De lo que deducimos:

El exponente es 0 (y en la forma sesgada es por lo tanto ${\ Displaystyle 127 = 0111 \ 1111}$ )
La fracción es 0 (mirando a la derecha del punto binario en 1.0 es todo ${\ Displaystyle 0 = 000 ... 0}$ )

A partir de estos, podemos formar la representación en formato binary32 IEEE 754 de 32 bits resultante del número real 1:

{\ displaystyle (1) _ {10} = (0 \ 01111111 \ 00000000000000000000000) _ {2} = ({\ text {3F800000}}) _ {16}}

Ejemplo 2: considere un valor de 0,25. Podemos ver eso: ${\ Displaystyle (0.25) _ {10} = (1.0) _ {2} \ times 2 ^ {- 2}}$

De lo que deducimos:

El exponente es −2 (y en la forma sesgada es ${\ Displaystyle (127 + (- 2)) _ {10} = (125) _ {10} = (0111 \ 1101) _ {2}}$ )
La fracción es 0 (mirando a la derecha del punto binario en 1.0 son todos ceros)

A partir de estos, podemos formar la representación en formato binary32 IEEE 754 de 32 bits resultante del número real 0.25:

{\ Displaystyle (0.25) _ {10} = (0 \ 01111101 \ 00000000000000000000000) _ {2} = ({\ text {3E800000}}) _ {16}}

Ejemplo 3: considere un valor de 0,375. Vimos eso ${\ Displaystyle 0.375 = {(1.1) _ {2}} \ times 2 ^ {- 2}}$

Por lo tanto, después de determinar una representación de 0.375 como ${\ Displaystyle {(1.1) _ {2}} \ times 2 ^ {- 2}}$ podemos proceder como arriba:

El exponente es −2 (y en la forma sesgada es ${\ Displaystyle (127 + (- 2)) _ {10} = (125) _ {10} = (0111 \ 1101) _ {2}}$ )
La fracción es 1 (mirando a la derecha del punto binario en 1.1 es una ${\ Displaystyle 1 = x_ {1}}$ )

A partir de estos, podemos formar la representación en formato binary32 IEEE 754 de 32 bits resultante del número real 0.375:

{\ displaystyle (0.375) _ {10} = (0 \ 01111101 \ 10000000000000000000000) _ {2} = ({\ text {3EC00000}}) _ {16}}

Ejemplos de precisión simple

Estos ejemplos se dan en representación de bits , en hexadecimal y binario , del valor de coma flotante. Esto incluye el signo, exponente (sesgado) y significando.

0 00000000 00000000000000000000001 ₂ = 0000 0001 ₁₆ = 2 ⁻¹²⁶ × 2 ⁻²³ = 2 ⁻¹⁴⁹ ≈ 1,4012984643 × 10 ⁻⁴⁵ (número subnormal positivo más pequeño)

0 00000000 11111111111111111111111 ₂ = 007f ffff ₁₆ = 2 ⁻¹²⁶ × (1 - 2 ⁻²³ ) ≈ 1,1754942107 × 10 ⁻³⁸ (número subnormal más grande)

0 00000001 00000000000000000000000 ₂ = 0.080 0000 ₁₆ = 2 ^-126 ≈ 1,1754943508 × 10 ^-38 (número normal positivo más pequeño)

0 11111110 11111111111111111111111 ₂ = 7f7f ffff ₁₆ = 2 ¹²⁷ × (2 - 2 ^-23 ) ≈ 3,4028234664 × 10 ³⁸ (mayor número normal)

0 01111110 11111111111111111111111 ₂ = 3f7f ffff ₁₆ = 1 - 2 ^-24 ≈ ,999999940395355225 (número más grande menos de uno)

0 01111111 00000000000000000000000 ₂ = 3f80 0000 ₁₆ = 1 (uno)

0 01111111 00000000000000000000001 ₂ = 3f80 0001 ₁₆ = 1 + 2 ⁻²³ ≈ 1.00000011920928955 (número más pequeño mayor que uno)

1 10000000 00000000000000000000000 ₂ = c000 0000 ₁₆ = −20 00000000 00000000000000000000000 ₂ = 0000 0000 ₁₆ = 01 00000000 00000000000000000000000 ₂ = 8000 0000 ₁₆ = −0 0 11111111 00000000000000000000000 ₂ = 7f80 0000 ₁₆ = infinito1 11111111 00000000000000000000000 ₂ = ff80 0000 ₁₆ = −infinito 0 10000000 10010010000111111011011 ₂ = 4049 0fdb ₁₆ ≈ 3,14159274101257324 ≈ π (pi)0 01111101 01010101010101010101011 ₂ = 3eaa aaab ₁₆ ≈ 0.333333343267440796 ≈ 1/3 x 11111111 10000000000000000000001 ₂ = ffc0 0001 ₁₆ = qNaN (en procesadores x86 y ARM)x 11111111 00000000000000000000001 ₂ = ff80 0001 ₁₆ = sNaN (en procesadores x86 y ARM)

Por defecto, 1/3 se redondea hacia arriba, en lugar de hacia abajo como precisión doble , debido al número par de bits en el significado. Los bits de 1/3 más allá del punto de redondeo son 1010...más de 1/2 de una unidad en el último lugar .

Las codificaciones de qNaN y sNaN no se especifican en IEEE 754 y se implementan de manera diferente en diferentes procesadores. Los procesadores de la familia x86 y la familia ARM utilizan el bit más significativo del campo significativo para indicar un NaN silencioso. Los procesadores PA-RISC utilizan el bit para indicar una señalización NaN.

Conversión de binario de precisión simple a decimal

Comenzamos con la representación hexadecimal del valor, 41C80000 , en este ejemplo, y lo convertimos a binario:

{\ Displaystyle {\ text {41C8 0000}} _ {16} = 0100 \ 0001 \ 1100 \ 1000 \ 0000 \ 0000 \ 0000 \ 0000_ {2}}

luego lo dividimos en tres partes: bit de signo, exponente y significando.

Bit de signo: ${\ Displaystyle 0_ {2}}$
Exponente: ${\ Displaystyle 1000 \ 0011_ {2} = 83_ {16} = 131_ {10}}$
Significand: ${\ Displaystyle 100 \ 1000 \ 0000 \ 0000 \ 0000 \ 0000_ {2} = 480000_ {16}}$

Luego agregamos el bit 24 implícito al significado:

Significand: ${\ Displaystyle \ mathbf {1} 100 \ 1000 \ 0000 \ 0000 \ 0000 \ 0000_ {2} = {\ text {C80000}} _ {16}}$

y decodificar el valor del exponente restando 127:

Exponente bruto: ${\ Displaystyle 83_ {16} = 131_ {10}}$
Exponente decodificado: ${\ Displaystyle 131-127 = 4}$

Cada uno de los 24 bits del significando (incluido el bit 24 implícito), del bit 23 al bit 0, representa un valor que comienza en 1 y se divide en mitades para cada bit, de la siguiente manera:

bit 23 = 1bit 22 = 0.5bit 21 = 0,25bit 20 = 0,125bit 19 = 0.0625bit 18 = 0.03125..bit 0 = 0.00000011920928955078125

El significado en este ejemplo tiene tres bits establecidos: bit 23, bit 22 y bit 19. Ahora podemos decodificar el significado sumando los valores representados por estos bits.

Significado decodificado: ${\ displaystyle 1 + 0.5 + 0.0625 = 1.5625 = {\ text {C80000}} / 2 ^ {23}}$

Luego necesitamos multiplicar con la base, 2, a la potencia del exponente, para obtener el resultado final:

{\ Displaystyle 1.5625 \ times 2 ^ {4} = 25}

Por lo tanto

{\ Displaystyle {\ text {41C8 0000}} = 25}

Esto es equivalente a:

{\ Displaystyle n = (- 1) ^ {s} \ times (1 + m * 2 ^ {- 23}) \ times 2 ^ {x-127}}

donde $s$ es el bit de signo, $x$ es el exponente y $m$ es el significando.

Limitaciones de precisión de los valores decimales en [1, 16777216]

Decimales entre 1 y 2: intervalo fijo 2 ⁻²³ (1 + 2 ⁻²³ es el siguiente flotante más grande después de 1)
Decimales entre 2 y 4: intervalo fijo 2 ⁻²²
Decimales entre 4 y 8: intervalo fijo 2 ⁻²¹
...
Decimales entre 2 ⁿ y 2 ^{n + 1} : intervalo fijo 2 ^n-23
...
Decimales entre 2 ²² = 4194304 y 2 ²³ = 8388608: intervalo fijo 2 ⁻¹ = 0.5
Decimales entre 2 ²³ = 8388608 y 2 ²⁴ = 16777216: intervalo fijo 2 ⁰ = 1

Limitaciones de precisión en valores enteros

Los números enteros entre 0 y 16777216 se pueden representar exactamente (también se aplica a los números enteros negativos entre −16777216 y 0)
Los enteros entre 2 ²⁴ = 16777216 y 2 ²⁵ = 33554432 se redondean a un múltiplo de 2 (número par)
Los enteros entre 2 ²⁵ y 2 ^{26 se} redondean a un múltiplo de 4
...
Los enteros entre 2 ⁿ y 2 ^{n + 1 se} redondean a un múltiplo de 2 ^n-23
...
Números enteros entre 2 ¹²⁷ y 2 ¹²⁸ ronda a un múltiplo de 2 ¹⁰⁴
Los números enteros mayores o iguales a 2 ¹²⁸ se redondean a "infinito".

Optimizaciones

El diseño del formato de punto flotante permite varias optimizaciones, como resultado de la fácil generación de una aproximación logarítmica en base 2 a partir de una vista entera del patrón de bits sin procesar. La aritmética de enteros y el desplazamiento de bits pueden producir una aproximación a la raíz cuadrada recíproca ( raíz cuadrada inversa rápida ), comúnmente requerida en gráficos por computadora .

Ver también

Estándar IEEE para aritmética de coma flotante (IEEE 754)
ISO / IEC 10967 , aritmética independiente del lenguaje
Tipo de datos primitivo
Estabilidad numérica

Referencias

^ "Declaración REAL" . scc.ustc.edu.cn .
^ "CLHS: Tipo CORTO FLOTADOR, SIMPLE FLOTADOR, DOBLE FLOTADOR ..."
^ "Tipos de datos primitivos" . Documentación de Java .
^ "6 tipos y clases predefinidos" . haskell.org . 20 de julio de 2010.
^ William Kahan (1 de octubre de 1997). "Notas de la conferencia sobre el estado del estándar IEEE 754 para aritmética de coma flotante binaria" (PDF) . pag. 4.

enlaces externos

Editor de patrones de bits de punto flotante en vivo
Calculadora online
Convertidor en línea para números IEEE 754 con precisión simple
Código fuente C para convertir entre precisión IEEE doble, simple y media

[1] "Declaración REAL" . scc.ustc.edu.cn .

[2] "CLHS: Tipo CORTO FLOTADOR, SIMPLE FLOTADOR, DOBLE FLOTADOR ..."

[3] "Tipos de datos primitivos" . Documentación de Java .

[4] "6 tipos y clases predefinidos" . haskell.org . 20 de julio de 2010.

[whyieee-5] William Kahan (1 de octubre de 1997). "Notas de la conferencia sobre el estado del estándar IEEE 754 para aritmética de coma flotante binaria" (PDF) . pag. 4.

[1]