o
    šÜÓhN ã                +   @   sn  d dl Zd dlZd dlZd dlZd dlZd dlZd dlZd dlmZ d dl	Z
d dlmZ d dlmZmZmZ d dlmZ d dlmZmZ ddlmZmZ d	d
„ Zi Zerã	 i Zejejejfed< ejejfed< ej ej!fed< ej"ej#ej$fed< ej%ej&fed< i Z'ej(ej)fe'd< ej*ej+fe'd< ej,ej-fe'd< ej.ej/fe'd< ej(ej)fe'd< ej*ej+fe'd< i Z0ej1ej2ej3fe0d< ej4ej5fe0d< ej6ej7fe0d< ej8ej9ej:fe0d< ej;ej<fe0d< G dd„ dƒZ=G dd„ dƒZ>G dd„ dƒZ?i Z@de@ejA< de@ejB< de@ejC< de@ejD< de@ejE< ejAejFdd ddœdd„ZGdÐd d!„ZHdÑd#d$„ZIdÒd%d&„ZJdÓd'd(„ZKdÓd)d*„ZLdÔd,d-„ZMdÕd/d0„ZNdÖd2d3„ZOd×d5d6„ZPdØd7d8„ZQd9d:„ ZRd;d<„ ZSd=ed>ejTfd?d@„ZUdAdB„ ZVdCdD„ ZWdÐdEdF„ZX	dÙdHdI„ZY	G				dÚdJdK„ZZdÛd=edNedOe[d>efdPdQ„Z\G dRdS„ dSƒZ]dÜd=edUedVedNed>ef
dWdX„Z^					T	dÝd=edYe]dVedUedNedZe_d>efd[d\„Z`dÞd^d_„Zadßd=edVedNefd`da„Zbdßd=edVedNefdbdc„Zcdàd=edVedNed>efdedf„Zddád=edYe]dVedNedZe_d>efdgdh„Zedád=edYe]dVedNedZe_d>efdidj„Zfdâd=edYe]dVedNedZe_d>efdkdl„Zgdãd=edUedNed>efdmdn„Zh				däd=edoeeef dVedUedNed>efdpdq„ZidÓd=edUedNed>efdrds„ZjdÓd=edUedNed>efdtdu„Zk		v	v	w		v	dådxeldyedzed{ed|e[d}e[d~e_de[d€ede[d‚e[dƒe[d„ed…e[d>dfd†d‡„Zm	v	w		vdædxeldyedzed{ed€ed|e[de[d}e[d~e_de[dˆed‰edŠed‹edŒeded‚e[dƒe[d„ed…e[d>df*dŽd„Zn	v	w	dçdxeldyedzed{ed€ed|e[de[d}e[d~e_de[dˆed‰eded‘ed‚e[dƒe[d>df"d’d“„Zo	1dèd”ed•ed~e_d–e_fd—d˜„Zpd™edšed›edœefddž„ZqejEfdŸd „Zr				déd=ed¡edNefd¢d£„Zs			dêd=ed¡edNefd¤d¥„Zt			dêd=ed¡edNefd¦d§„Zuddejvfd¨d©„Zw				dädªd«„Zx	vdëd¬d­„ZyG d®d¯„ d¯ƒZzG d°d±„ d±ƒZ{G d²d³„ d³ƒZ|d´dµ„ Z}d¶d·„ Z~ejfd¸d¹„Z€	vdìdºd»„ZdÚd¼d½„Z‚dÓd¾d¿„ZƒdãdÀdÁ„Z„dÂZ…dídÄdÅ„Z†dîdÆdÇ„Z‡ejdÃfdÈdÉ„ZˆejfdÊdË„Z‰dÌdÍ„ ZŠdÎdÏ„ Z‹dS )ïé    N)Únorm)Úreduce)ÚTupleÚAnyÚDict)ÚTensor)Úpack_dict_to_tensorÚunpack_tensor_to_dicté   )ÚCOMPILED_WITH_CUDAÚlibc                 C   s   t tj| dƒS ©Nr
   )r   ÚoperatorÚmul)Úiterable© r   úM/var/www/html/ai/venv/lib/python3.10/site-packages/bitsandbytes/functional.pyÚprod   s   r   ÚadamÚmomentumÚrmspropÚlionÚadagradÚlambÚlarsc                   @   s6   e Zd ZdZdd„ Zdd„ Zedd„ ƒZdd	d
„ZdS )ÚGlobalPageManagerNc                 C   ó   t dƒ‚©NzCall get_instance() instead©ÚRuntimeError©Úselfr   r   r   Ú__init__d   ó   zGlobalPageManager.__init__c                 C   s
   g | _ d S ©N)Úpaged_tensorsr    r   r   r   Ú
initializeg   ó   
zGlobalPageManager.initializec                 C   ó&   | j d u r|  | ¡| _ | j  ¡  | j S r$   ©Ú	_instanceÚ__new__r&   ©Úclsr   r   r   Úget_instancej   ó   

zGlobalPageManager.get_instanceFc                 C   s$   | j d d d… D ]}t||ƒ qd S )Néÿÿÿÿ)r%   Úprefetch_tensor)r!   Úto_cpuÚtr   r   r   Úprefetch_allq   s   ÿzGlobalPageManager.prefetch_all©F)	Ú__name__Ú
__module__Ú__qualname__r*   r"   r&   Úclassmethodr.   r4   r   r   r   r   r   a   s    
r   c                   @   s4   e Zd ZdZdd„ Zdd„ Zedd„ ƒZdd	„ ZdS )
ÚCUBLAS_ContextNc                 C   r   r   r   r    r   r   r   r"   }   r#   zCUBLAS_Context.__init__c                 C   s
   i | _ d S r$   )Úcontextr    r   r   r   r&   €   r'   zCUBLAS_Context.initializec                 C   r(   r$   r)   r,   r   r   r   r.   ƒ   r/   zCUBLAS_Context.get_instancec                 C   sP   |j | jvr"tj ¡ }tj |¡ t t 	¡ ¡| j|j < tj |¡ | j|j  S r$   )
Úindexr;   ÚtorchÚcudaÚcurrent_deviceÚ
set_deviceÚctÚc_void_pr   Úget_context)r!   ÚdeviceÚprev_devicer   r   r   rC   Š   s   
zCUBLAS_Context.get_context)	r6   r7   r8   r*   r"   r&   r9   r.   rC   r   r   r   r   r:   z   s    
r:   c                   @   s,   e Zd ZdZdd„ Zdd„ Zedd„ ƒZdS )ÚCusparse_ContextNc                 C   r   r   r   r    r   r   r   r"   –   r#   zCusparse_Context.__init__c                 C   s   t  t ¡ ¡| _d S r$   )rA   rB   r   Úget_cusparser;   r    r   r   r   r&   ™   s   zCusparse_Context.initializec                 C   r(   r$   r)   r,   r   r   r   r.   œ   r/   zCusparse_Context.get_instance)r6   r7   r8   r*   r"   r&   r9   r.   r   r   r   r   rF   “   s    rF   é   é   r>   )r<   ©ÚdtyperD   c                 G   sp   t |  t|ƒ }t t |¡¡}t |t tj¡¡}t	j
j||d}tj|| t|ƒd |¡}d|_|j|_|S )N©Úshape)rK   ÚcountT)Údtype2bytesr   r   Úcget_managed_ptrrA   Úc_size_tÚcastÚPOINTERÚc_intÚnpÚ	ctypeslibÚas_arrayr=   Ú
frombufferÚviewÚis_pagedr<   Úpage_deviceid)rK   rD   rM   Ú	num_bytesÚcuda_ptrÚc_ptrÚ	new_arrayÚoutr   r   r   Ú	get_pagedª   s   ra   Fc                 C   sR   | j sJ dƒ‚|rd}n| j}t| j |  ¡  }t t| ƒt 	|¡t 
|¡¡ d S )Nz%Only paged tensors can be prefetched!r0   )rZ   r[   rO   rK   Únumelr   Ú	cprefetchÚget_ptrrA   rQ   Úc_int32)ÚAr2   Údeviceidr\   r   r   r   r1   ´   s   "r1   Tc                 C   sÚ   d }|j tjkrttd| › dd ƒ}t |¡}n|j tjkr-ttd| › dd ƒ}t |¡}|d u r8t	d| › ƒ‚t|ddƒ}|rN|rNt
|ƒ |d urNt
|ƒ |t|ƒt|ƒ|t | ¡ ¡ƒ |jsd|jrktj ¡  d S d S )NÚcÚ_fp32Ú_uint8zFunction not implemented: Ú
is_managedF)rK   r=   Úfloat32Úgetattrr   rA   Úc_floatÚuint8Úc_uint8ÚNotImplementedErrorr1   rd   Úc_int64rb   rZ   r>   Úsynchronize)Ú	func_namerf   ÚBÚvalueÚprefetchÚfuncÚcvaluerk   r   r   r   Úelementwise_func¾   s    
 ûrz   c                 C   s   t d| d |ƒ d S )NÚfill©rz   )rf   rv   rD   rw   r   r   r   r{   Ö   ó    r{   c                 C   s   t d| d dƒ d S )NÚaranger   r|   )rf   rD   r   r   r   r~   ×   r}   r~   c                 C   s   t d| |dƒ d S )NÚ_mulr   r|   )rf   ru   rD   r   r   r   r   Ø   r}   r   é   c                 C   sš   | rdnd}d| }|s|dk r| sd| nd| d }t  |d|¡}d| ¡  }|dkr/|S | ¡ d }t  |d |…  ¡ dg|  ||d …  ¡  ¡S )	Nç      ð¿ç        rI   r€   r
   ç      ð?é   r   )r=   Úlinspacerb   r   Útolist)ÚsignedÚ
total_bitsÚadd_zeroÚsignÚtotal_valuesÚvaluesÚgapÚlr   r   r   Úcreate_linear_mapÛ   s   0r   ç+’ew÷î?c                 C   sÞ   |r)t  t | dd¡d d… ¡ ¡ }dgd }t  t | dd¡d d… ¡  ¡ }n&t  t | dd¡d d… ¡ ¡ }dgd }t  t | dd¡d d… ¡  ¡ }|| | }t |¡}| ¡ j}|| ¡  }| 	¡ dksmJ ‚|S )	Ng      à?é	   r0   r   éñ   r€   éò   r„   )
r   Úppfr=   r…   r†   r   ÚsortrŒ   Úmaxrb   )ÚoffsetÚuse_extra_valueÚv1Úv2Úv3ÚvrŒ   r   r   r   Úcreate_normal_mapí   s    
$ 
"

r   é   c                 C   sš  |}|}| rdnd}|| || ksJ ‚g }g }t td||   d||  dƒƒD ]\}	}
| d|
 ¡ q)g }ttjddg|dƒ}d|d  }td| ƒD ]I}|D ]D}|dkrZdnd}t t|ƒƒD ]\}	}||d|	d    7 }qb|dkr~|d|   }n|d|| d    }| |¡ | r–| | ¡ qRqNt|ƒd| ks¢J ‚| ¡  |dk r¼dt|ƒ }t|ƒD ]}	| d¡ q´| ¡  t 	|¡}|| 
¡  }|S )Nr
   r   rI   )Úrepeatr€   r„   )Ú	enumerateÚrangeÚappendÚlistÚ	itertoolsÚproductÚlenr•   r=   r   r–   )r‡   Úexponent_bitsÚprecision_bitsrˆ   ÚeÚpÚhas_signÚevaluesÚpvaluesÚiÚvalrŒ   ÚlstÚbiasÚevalueÚbit_patternrv   Úpvalr   Úcoder   r   r   Úcreate_fp8_map  sD   *
€ô
r¶   é   c                 C   s¦  g }|| rdnd }d||  d }t |ƒD ]R}t| r%d|| |  d nd|| | d  d ƒ}t dd|¡}|dd… |dd…  d }	|d|d  |  |	  ¡ 7 }| rh|d|d  |   |	  ¡ 7 }q|dkr¥t dd|d ¡}|dd… |dd…  d }	|d|d  |  |	  ¡ 7 }| r¥|d|d  |   |	  ¡ 7 }| d¡ | d	¡ t|ƒd| ks¹J ‚d
t|ƒ }
t |
ƒD ]}| d¡ qÃ| ¡  t|ƒS )a+  
    Creates the dynamic quantiztion map.

    The dynamic data type is made up of a dynamic exponent and
    fraction. As the exponent increase from 0 to -7 the number
    of bits available for the fraction shrinks.

    This is a generalization of the dynamic type where a certain
    number of the bits and be reserved for the linear quantization
    region (the fraction). n determines the maximum number of
    exponent bits.

    For more details see
    (8-Bit Approximations for Parallelism in Deep Learning)[https://arxiv.org/abs/1511.04561]
    r
   rI   gš™™™™™¹?Nr0   ç       @é
   r   rƒ   r„   )	r¡   Úintr=   r…   r†   r¢   r¦   r•   r   )r‡   Úmax_exponent_bitsrˆ   ÚdataÚnon_sign_bitsÚadditional_itemsr®   Úfraction_itemsÚ
boundariesÚmeansr   r   r   r   Úcreate_dynamic_map1  s2   4 € 

rÂ   c                 C   sn   t | d| d d}| ¡ }| d¡ dt|ƒ }t|ƒD ]}| d¡ q| ¡  t|ƒ}|| ¡  ¡  }|S )NrI   r
   )Únum_quantilesr   r„   )	Úestimate_quantilesr†   r¢   r¦   r¡   r•   r   Úabsr–   )rf   rˆ   Úqr   r®   r   r   r   Úcreate_quantile_mapc  s   
rÇ   c                  C   s8   t j ¡ sdS t j ¡ \} }| dkrdS | dkrdS dS )NÚ
col_turingr·   r€   Ú
col_ampere)r=   r>   Úis_availableÚget_device_capability)ÚmajorÚ_minorr   r   r   Úget_special_format_strr  s   rÎ   c                 C   s”   d}t ƒ }| D ] }|d u rqt|ddƒ}||jjdkp|M }|s'| |jj¡ q|s6tddd„ | D ƒ› ƒ‚t|ƒdkrHtd	d
d„ | D ƒ› ƒ‚|S )NTrZ   Fr>   zZAll input tensors need to be on the same GPU, but found some tensors to not be on a GPU:
 c                 S   ó   g | ]}|j |jf‘qS r   ©rM   rD   ©Ú.0r3   r   r   r   Ú
<listcomp>‡  ó    zis_on_gpu.<locals>.<listcomp>r
   zcInput tensors need to be on the same GPU, but found the following tensor and device combinations:
 c                 S   rÏ   r   rÐ   rÑ   r   r   r   rÓ   ‰  rÔ   )Úsetrm   rD   ÚtypeÚaddr<   Ú	TypeErrorr¦   )ÚtensorsÚon_gpuÚgpu_idsr3   rZ   r   r   r   Ú	is_on_gpu}  s   
€rÜ   rf   Úreturnc                 C   s   | du rdS t  | j ¡ ¡S )z´
    Get the ctypes pointer from a PyTorch Tensor.

    Parameters
    ----------
    A : torch.tensor
        The PyTorch tensor.

    Returns
    -------
    ctypes.c_void_p
    N)rA   rB   r¼   Údata_ptr)rf   r   r   r   rd   Œ  s   rd   c                 C   s   t j ¡ }t j | ¡ |S r$   )r=   r>   r?   r@   )rD   rE   r   r   r   Úpre_callŸ  s   
rß   c                 C   s   t j | ¡ d S r$   )r=   r>   r@   )rE   r   r   r   Ú	post_call¥  s   rà   c              	   C   sn   d| t jkrdnd› d|› d|› d|rdnd› }tt|ƒs2t|ƒ td|› d	|› d
| › d|› ƒ‚tt|ƒS )NÚctransform_r€   é    Ú_Ú_to_r3   Únz"Transform function not supported: ú to z for data type z and transpose=)r=   Úint8Úhasattrr   ÚprintÚ
ValueErrorrm   )rK   ÚorderAÚorderOutÚ	transposeÚnamer   r   r   Úget_transform_func©  s   2
ÿ
rï   Úrowc                 C   sD  t j}t| ƒ}|dkr| d }n|dkr| d | d  }| d }	| |f}
|r5|}|	}|}	| d d d… |f}
|dks=|dkrF|| ||d|
fS |d	kr]d
|	d d
  }	|||	f||d|
fS |dkr|d
|	d d
  }	d|d d  }|||	f||d|
fS |dkr›d
|	d d
  }	d
|d d
  }|||	f||d|
fS td|› ƒ‚)NrI   r   é   r
   r0   rð   ÚcolrJ   Úcol32râ   é   rÈ   r€   r·   rÉ   zTo_order not supported: )r=   Úzerosr¦   rq   )rM   rK   rD   Úto_orderÚ
from_orderrí   Ú	init_funcÚdimsÚrowsÚcolsÚstateÚtmpr   r   r   Úget_transform_buffer´  s6   
rþ   c                    s(  |d u r
| j |f}n|d }|d u r#t|d | j| j||d ƒ\}}n|d |f}t| j|||ƒ}|d ‰ tˆ ƒdkrJt ˆ d ¡}	t ˆ d ¡}
n2|d urjtˆ ƒ}t‡ fdd„|D ƒƒ}	t ||	 ¡}
t |	¡}	nt ˆ d ˆ d  ¡}	t ˆ d ¡}
t	 
¡  | j¡}||t| ƒt|ƒ|	|
ƒ ||fS )Nr
   r   rI   c                    s   g | ]}ˆ | ‘qS r   r   )rÒ   r®   rL   r   r   rÓ   ø  s    z$nvidia_transform.<locals>.<listcomp>)rM   rþ   rK   rD   rï   r¦   rA   re   r   r:   r.   rC   rd   )rf   rö   r÷   r`   rí   rü   ÚldÚ	new_staterx   Údim1Údim2rå   Úptrr   rL   r   Únvidia_transformÝ  s.   	
ÿr  ç      `?r„   r`   r—   c              	   C   sB  |   ¡ dk rtd|   ¡ › dƒ‚|dkrtd|› ƒ‚|dk r)|dkr)dd|  }|du r7tjd	tj| jd
}t| |gƒ t| jƒ}| jtjkr]t	 
t| ƒt|ƒt |¡t |   ¡ ¡¡ n#| jtjkrxt	 t| ƒt|ƒt |¡t |   ¡ ¡¡ ntd| j› ƒ‚t|ƒ |dk rŸtd| ƒ}t dd|¡ ¡  | j¡}|| }|S )aµ  
    Estimates 256 equidistant quantiles on the input tensor eCDF.

    Uses SRAM-Quantiles algorithm to quickly estimate 256 equidistant quantiles
    via the eCDF of the input tensor `A`. This is a fast but approximate algorithm
    and the extreme quantiles close to 0 and 1 have high variance / large estimation
    errors. These large errors can be avoided by using the offset variable which trims
    the distribution. The default offset value of 1/512 ensures minimum entropy encoding -- it
    trims 1/512 = 0.2% from each side of the distrivution. An offset value of 0.01 to 0.02
    usually has a much lower error but is not a minimum entropy encoding. Given an offset
    of 0.02 equidistance points in the range [0.02, 0.98] are used for the quantiles.

    Parameters
    ----------
    A : torch.Tensor
        The input tensor. Any shape.
    out : torch.Tensor
        Tensor with the 256 estimated quantiles.
    offset : float
        The offset for the first and last quantile from 0 and 1. Default: 1/(2*num_quantiles)
    num_quantiles : int
        The number of equally spaced quantiles.

    Returns
    -------
    torch.Tensor:
        The 256 quantiles in float32 datatype.
    r„   zQQuantile estimation needs at least 256 values in the Tensor, but Tensor had only z values.zgCurrently only a maximum of 256 equally spaced quantiles are supported, but the argument num_quantiles=r  r
   rI   N)r„   rJ   zNot supported data type r   éÿ   )rb   rq   r=   rõ   rl   rD   rÜ   rß   rK   r   Úcestimate_quantiles_fp32rd   rA   rn   rT   Úfloat16Úcestimate_quantiles_fp16rà   Úroundr…   ÚlongÚto)rf   r`   r—   rÃ   rD   ÚstepÚidxr   r   r   rÄ     s$    
**rÄ   c                   @   sr   e Zd ZdZdZdd„ eD ƒZg d¢Zddd„Zd	d
„ Ze	de
eef dejdd fdd„ƒZddd„Zdd„ ZdS )Ú
QuantStatezVcontainer for quantization state components to work with Params4bit and similar clases©Úfp4Únf4c                 C   s   g | ]}d |› ‘qS )Úbitsandbytes__r   )rÒ   Úxr   r   r   rÓ   >  s    zQuantState.<listcomp>)ÚabsmaxÚ	quant_mapÚnested_absmaxÚnested_quant_mapÚquant_stateÚ
quant_typeÚ	blocksizerK   rM   Únested_blocksizeÚnested_dtypeÚnested_offsetNc	           	      C   s>   || _ || _|| _|| _|| _|| _|| _|| _|d u| _d S r$   )	r  rM   rµ   rK   r  r  r—   Ústate2Únested)	r!   r  rM   rµ   r  r  rK   r—   r  r   r   r   r"   B  s   zQuantState.__init__c                 C   sR   | j r| j| j| j| j| j| jg| jg}|| S | j| j| j| jd| jg}|| S )a$  
        ensures compatibility with older quant state scheme with nested lists.
        assumes the following layout:
        state = [qabsmax, input_shape, A.dtype, blocksize, [offset, state2], quant_type]
        state2 = [absmax, input_shape, A.dtype, blocksize, None, quant_type]
        N)r   r  rM   rK   r  r—   r  r  )r!   r  Ú	list_reprr   r   r   Ú__get_item__M  s
   "ÿzQuantState.__get_item__Úqs_dictrD   rÝ   c              
   C   sp  dd„ |  ¡ D ƒ}t|ƒsd|vrtdƒ‚t|ƒdks'|d  d¡d | jvr3td	| j› d
|› dƒ‚t|ƒdkrG|d }| t| |¡ƒ¡ dd„ |  ¡ D ƒ}t| 	¡ ƒ 
| j¡s\J ‚d|v r†t t|d ƒ¡ |¡}| |d  |¡|d |d  |¡tt|d ƒd}nd\}}| |d |d  |¡|d |d  |¡tt|d ƒ|d dur°t |d ¡nd||d}|S )aW  
        unpacks components of state_dict into QuantState
        where necessary, convert into strings, torch.dtype, ints, etc.

        qs_dict: based on state_dict, with only relevant keys, striped of prefixes.

        item with key `quant_state.bitsandbytes__[nf4/fp4]` may contain minor and non-tensor quant state items.        
        c                 S   s(   g | ]\}}d |v rt |tjƒr|‘qS )r  ©Ú
isinstancer=   r   ©rÒ   Úkrœ   r   r   r   rÓ   f  s   ( z(QuantState.from_dict.<locals>.<listcomp>r  z<Expected packed or unpacked quant_state items, found neitherr
   r   Ú.r0   z@There should be exactly one `quant_state` item with ending from z.
Detected c                 S   s    i | ]\}}|  d ¡d |“qS )r(  r0   )Úsplitr&  r   r   r   Ú
<dictcomp>q  s     z(QuantState.from_dict.<locals>.<dictcomp>r  r  r  r  r  )r  r  rµ   rK   ©NNr  r  r  rK   rM   N)r  r  r  rµ   rK   rM   r—   r  )Úitemsr¦   rê   r)  Úvalid_qs_type_keysÚupdater	   ÚpoprÕ   ÚkeysÚissubsetÚvalid_qs_keysr=   ÚtensorÚfloatr  rm   ÚSize)r-   r#  rD   Úqs_keyr—   r  r  r   r   r   Ú	from_dictZ  s<   $üø
zQuantState.from_dictFc                 C   s®   | j | j| j| jt| jƒ d¡t| jƒdœ}| j	r6| 
| jj| jj| jj ¡ t| jjƒ d¡| j ¡ dœ¡ |s:|S dd„ | ¡ D ƒ}dd„ | ¡ D ƒ}t|ƒ|d| j  < |S )zÊ
        returns dict of tensors and strings to use in serialization via _save_to_state_dict()
        param: packed -- returns dict[str, torch.Tensor] for state_dict fit for safetensors saving
        ztorch.)r  r  r  r  rK   rM   )r  r  r  r  r  c                 S   s"   i | ]\}}t |tjƒr||“qS r   r$  r&  r   r   r   r*  ¤  ó   " z&QuantState.as_dict.<locals>.<dictcomp>c                 S   s"   i | ]\}}t |tjƒs||“qS r   r$  r&  r   r   r   r*  ¥  r8  zquant_state.bitsandbytes__)r  r  r  rµ   ÚstrrK   ÚstripÚtuplerM   r   r.  r  Úcloner—   Úitemr,  r   )r!   Úpackedr#  Úqs_packed_dictÚnon_tensor_dictr   r   r   Úas_dict‹  s*   ú
ûzQuantState.as_dictc                 C   sN   | j  |¡| _ | jr%| j |¡| _| jj  |¡| j_ | jj |¡| j_d S d S r$   )r  r  r   r—   r  rµ   )r!   rD   r   r   r   r  ©  s   ýzQuantState.to)NNNNNNNr5   )r6   r7   r8   Ú__doc__Úvalid_quant_typesr-  r2  r"   r"  r9   r   r9  r   r=   rD   r7  rA  r  r   r   r   r   r  ;  s    
"
0r  é   rµ   r  c                 C   s<  |du rdt vrtƒ  | j¡t d< t d }|du r8|  ¡ }|| }||| dkr*dnd7 }tj|f| jtjd}|du rDtj| tj	d}| jj
dkrÐ|dv sPJ ‚t |¡}t| jƒ}	| | j¡}t|| ||gƒ | jtjkr†t t|ƒt| ƒt|ƒt|ƒ|t |  ¡ ¡¡ nD| jtjkr¤t t|ƒt| ƒt|ƒt|ƒ|t |  ¡ ¡¡ n&| jtjkrÂt t|ƒt| ƒt|ƒt|ƒ|t |  ¡ ¡¡ ntd	| j› ƒ‚t| jƒ n| ¡ }t t|ƒt| ƒt|ƒt|ƒt |¡t |  ¡ ¡¡ |r| ¡ }
||
8 }t||d
d\}}t|||| j|
|d}||fS t|||| jd}||fS )a€  
    Quantize tensor A in blocks of size 4096 values.

    Quantizes tensor A by dividing it into blocks of 4096 values.
    Then the absolute maximum value within these blocks is calculated
    for the non-linear quantization.

    Parameters
    ----------
    A : torch.Tensor
        The input tensor.
    code : torch.Tensor
        The quantization map.
    absmax : torch.Tensor
        The absmax values.
    out : torch.Tensor
        The output tensor (8-bit).

    Returns
    -------
    torch.Tensor:
        The 8-bit tensor.
    tuple(torch.Tensor, torch.Tensor):
        The quantization state to undo the quantization.
    NÚdynamicr   r
   ©rD   rK   ©rK   Úcpu©rD  é   é   é   r„   é€   é@   ú?Blockwise quantization only supports 16/32-bit floats, but got F)r  r   )r  rµ   r  rK   r—   r  ©r  rµ   r  rK   ) Ú	name2qmaprÂ   r  rD   rb   r=   rõ   rl   Ú
zeros_likero   rÖ   rA   re   rß   rÜ   rK   r   Úcquantize_blockwise_fp32rd   rT   r  Úcquantize_blockwise_fp16Úbfloat16Úcquantize_blockwise_bf16rê   rà   rH  Úcquantize_blockwise_cpu_fp32Ú
c_longlongÚmeanÚquantize_blockwiser  )rf   rµ   r  r`   r  r   rå   ÚblocksÚ
cblocksizerE   r—   Úqabsmaxr  r  r   r   r   rZ  ²  sF   

0004þrZ  r  r  c                 C   s:  |dus
|dus
J ‚|du r#|du r#dt vrtƒ  | j¡t d< t d }|du r0t|||tjd}|j}|jrLt	|j|j
ƒ}||j7 }|jtjkrL| ¡ }|du r[tj| j|j| jd}| jjdkrút| jƒ}|j | j¡}|jdvr{td|j› dƒ‚t| ||gƒ |jtjkr¥t t|jƒt| ƒt|ƒt|ƒt |j¡t |  ¡ ¡¡ nN|jtjkrÈt t|jƒt| ƒt|ƒt|ƒt |j¡t |  ¡ ¡¡ n+|jtjkrët t|jƒt| ƒt|ƒt|ƒt |j¡t |  ¡ ¡¡ ntd	| j› ƒ‚t | jƒ |S |j !¡ }t "t|ƒt| ƒt|jƒt|ƒt #|j¡t #|  ¡ ¡¡ |S )
a[  
    Dequantizes blockwise quantized values.

    Dequantizes the tensor A with maximum absolute values absmax in
    blocks of size 4096.

    Parameters
    ----------
    A : torch.Tensor
        The input 8-bit tensor.
    quant_state : QuantState
        Object with code, absmax and other quantization state components.
    absmax : torch.Tensor
        The absmax values.
    code : torch.Tensor
        The quantization map.
    out : torch.Tensor
        Dequantized output tensor (default: float32)


    Returns
    -------
    torch.Tensor:
        Dequantized tensor (default: float32)
    NrE  rP  rJ   rH  ©rJ  rD  rK  rL  r„   rM  rN  úThe blockwise of úJ is not supported. Supported values: [2048, 4096, 1024, 512, 256, 128, 64]rO  )$rQ  rÂ   r  rD   r  r=   rl   r  r   Údequantize_blockwiser  r—   rK   r4  ÚemptyrM   rÖ   rß   rµ   r  rê   rÜ   r   Úcdequantize_blockwise_fp32rd   rA   rT   rb   r  Úcdequantize_blockwise_fp16rU  Úcdequantize_blockwise_bf16rà   rH  Úcdequantize_blockwise_cpu_fp32rX  )rf   r  r  rµ   r`   r  r   rD   r   r   r   ra  û  s@   "


:::

ý8ra  rN  c                 C   s¾   |d u rd}d }| dkr	 g d¢}n(| dkrg d¢}n| dkr$g d¢}n| dkr:|d	kr6g d
¢d d d… }nt dƒ‚|d u rFt d| › dƒ‚t|ƒ}|| ¡  ¡  }| ¡ dksZJ ‚| |¡S )Nr>   r  )r   g    6Gæ¿g    fÍà¿g    TFÙ¿g    I4Ò¿g   à§¦Ç¿g    O·¿r‚   g   à__´?g   `\™Ä?g    ›€Ï?g   @g Õ?g    —4Ü?g   `õ â?g   `v"ç?rƒ   r  )r   g      °?g       @g      (@g      @g      @r¸   g      @r   g      °¿g       Àg      (Àg      Àg      Àg       Àg      ÀÚint4)r·   é   rž   rH   rñ   rI   r
   r   r   r0   éþÿÿÿéýÿÿÿéüÿÿÿéûÿÿÿiúÿÿÿiùÿÿÿÚaf4rN  )r   g™›ó|›8æ¿gë…éãeà¿g‘:KÚžê×¿gH2í“ŠcÐ¿g”}Yu-Ã¿gQÅ	#(D©¿r‚   gFà›èëà¥?gáÚ`_ŽÀ?g­ß
0EÌ?gL_ß¹½EÔ?gÆ¶óšª=Û?gåø™a@Âá?gÐº€v-ç?rƒ   r0   z94-bit AbnormalFloats currently only support blocksize 64.z	Typename z not supportedé   )rq   r   rÅ   r–   rb   r  )ÚtypenamerD   r  r¼   r   r   r   Úget_4bit_typeD  s*   




þ
rp  c                 C   ó   t | ||||dƒS ©Nr  ©Úquantize_4bit©rf   r  r`   r  Úcompress_statisticsr   r   r   Úquantize_fp4w  ó   rw  c                 C   rq  ©Nr  rs  ru  r   r   r   Úquantize_nf4z  rx  rz  r  c              
   C   sÊ  | j jdkrtd| j j› ƒ‚|dvrtd|› dƒ‚|  ¡ }| j}|du rA|| }||| dkr3dnd7 }tj|f| j tjd	}|du rUtj|d d
 dftj| j d}|dv s[J ‚t	| j ƒ}	t
| ||gƒ | jtjkr£|dkrŠt tdƒt| ƒt|ƒt|ƒt |¡t |¡¡ n›t tdƒt| ƒt|ƒt|ƒt |¡t |¡¡ n‚| jtjkrß|dkrÆt tdƒt| ƒt|ƒt|ƒt |¡t |¡¡ n_t tdƒt| ƒt|ƒt|ƒt |¡t |¡¡ nF| jtjkr|dkrt tdƒt| ƒt|ƒt|ƒt |¡t |¡¡ n!t tdƒt| ƒt|ƒt|ƒt |¡t |¡¡ ntd| j› ƒ‚t| j ƒ t|| j d}
|rV| ¡ }||8 }t|dd\}}~t||| j||
|||d}||fS t||| j||
|d}||fS )a§  
    Quantize tensor A in blocks of 4-bit values.

    Quantizes tensor A by dividing it into blocks which are independently quantized to FP4.

    Parameters
    ----------
    A : torch.Tensor
        The input tensor.
    absmax : torch.Tensor
        The absmax values.
    out : torch.Tensor
        The output tensor (8-bit).
    blocksize : int
        The blocksize used in quantization.
    quant_type : str
        The 4-bit quantization data type {fp4, nf4}

    Returns
    -------
    torch.Tensor:
        The 8-bit tensor with packed 4-bit values.
    tuple(torch.Tensor, torch.Size, torch.dtype, int):
        The quantization state to undo the quantization.
    r>   z0Device type not supported for FP4 quantization: r  ú4-bit quantization data type ú is not implemented.Nr   r
   rF  rI   rJ   rI  r  rO  )rD   r„   )r  )r  rM   rK   r  rµ   r  r—   r  )r  rM   rK   r  rµ   r  )rD   rÖ   rq   rb   rM   r=   rõ   rl   ro   rß   rÜ   rK   r   Úcquantize_blockwise_fp32_fp4rd   rA   re   rT   Úcquantize_blockwise_fp32_nf4r  Úcquantize_blockwise_fp16_fp4Úcquantize_blockwise_fp16_nf4rU  Úcquantize_blockwise_bf16_fp4Úcquantize_blockwise_bf16_nf4rê   rà   rp  rY  rZ  r  )rf   r  r`   r  rv  r  rå   Úinput_shaper[  rE   rµ   r—   r]  r  rü   r   r   r   rt  }  sN    
2222
22
þrt  c                 C   rq  rr  ©Údequantize_4bit©rf   r  r  r`   r  r   r   r   Údequantize_fp4Í  rx  r‡  c                 C   rq  ry  r„  r†  r   r   r   Údequantize_nf4Ð  rx  rˆ  c           	   
   C   sœ  |dvrt d|› dƒ‚|dvrtd|› dƒ‚|du r2|dur$|dus&J ‚t||j|j||d}n|j}|jrNt|j|jƒ}||j	7 }|jt
jkrN| ¡ }|du r]t
j|j|j| jd	}| ¡ }t| jƒ}t| ||gƒ |jt
jkr¬|jd
kr’t tdƒt| ƒt|ƒt|ƒt |j¡t |¡¡ n¢t tdƒt| ƒt|ƒt|ƒt |j¡t |¡¡ nˆ|jt
jkrë|jd
krÑt tdƒt| ƒt|ƒt|ƒt |j¡t |¡¡ nct tdƒt| ƒt|ƒt|ƒt |j¡t |¡¡ nI|jt
jkr,|jd
krt tdƒt| ƒt|ƒt|ƒt |j¡t |¡¡ n"t tdƒt| ƒt|ƒt|ƒt |j¡t |¡¡ nt d| j› ƒ‚t | jƒ | jd dkrCdnd}|rL| !¡ S |S )aÂ  
    Dequantizes FP4 blockwise quantized values.

    Dequantizes the tensor A with maximum absolute values absmax in blocks of size blocksize.

    Parameters
    ----------
    A : torch.Tensor
        The input 8-bit tensor (packed 4-bit values).
    quant_state : QuantState
        object with quantisation stats, incl. absmax values, original tensor shape and original dtype.
    absmax : torch.Tensor
        The absmax values.
    out : torch.Tensor
        Dequantized output tensor.
    blocksize : int
        The blocksize used in quantization.
    quant_type : str
        The 4-bit quantization data type {fp4, nf4}


    Returns
    -------
    torch.Tensor:
        Dequantized tensor.
    r^  r_  r`  r  r{  r|  N)r  rM   rK   r  r  rJ   r  rO  r   r
   TF)"rê   rq   r  rM   rK   r  r   ra  r  r—   r=   rl   r4  rb  rD   rb   rß   rÜ   r  r   Úcdequantize_blockwise_fp32_fp4rd   rA   rT   r  Úcdequantize_blockwise_fp32_nf4r  Úcdequantize_blockwise_fp16_fp4Úcdequantize_blockwise_fp16_nf4rU  Úcdequantize_blockwise_bf16_fp4Úcdequantize_blockwise_bf16_nf4rà   r3   )	rf   r  r  r`   r  r  rå   rD   Úis_transposedr   r   r   r…  Ó  sD   


44
4444
r…  c                 C   sx   |d u rdt vrtƒ  | j¡t d< t d }| | j¡}t | ¡ ¡ }|jtjkr,| 	¡ }| | }t
|||ƒ}|||ffS )NrE  )rQ  rÂ   r  rD   r=   rÅ   r–   rK   rl   r4  Úquantize_no_absmax)rf   rµ   r`   r  Úinpr   r   r   Úquantize   s   r’  rü   c                 C   s~   |d us
|d us
J ‚|d u r)|d u r)dt vrtƒ  | j¡t d< t d }| | j¡}|d u r1||f}t| |d |ƒ}||d  S )NrE  r
   r   )rQ  rÂ   r  rD   Údequantize_no_absmax)rf   rü   r  rµ   r`   r   r   r   Ú
dequantize.  s   r”  c              	   C   s`   t | jƒ}|du rtj| tjd}t| |gƒ t t|ƒt| ƒt|ƒt	 
|  ¡ ¡¡ t|ƒ |S )aÂ  
    Quantizes input tensor to 8-bit.

    Quantizes the 32-bit input tensor `A` to the 8-bit output tensor
    `out` using the quantization map `code`.

    Parameters
    ----------
    A : torch.Tensor
        The input tensor.
    code : torch.Tensor
        The quantization map.
    out : torch.Tensor, optional
        The output tensor. Needs to be of type byte.

    Returns
    -------
    torch.Tensor:
        Quantized 8-bit tensor.
    NrG  )rß   rD   r=   rR  ro   rÜ   r   Ú	cquantizerd   rA   rT   rb   rà   ©rf   rµ   r`   rE   r   r   r   r  B  s   
&r  c              	   C   sb   t | jƒ}|du rtj| tjd}t|| |gƒ t t|ƒt| ƒt|ƒt	 
|  ¡ ¡¡ t|ƒ |S )a£  
    Dequantizes the 8-bit tensor to 32-bit.

    Dequantizes the 8-bit tensor `A` to the 32-bit tensor `out` via
    the quantization map `code`.

    Parameters
    ----------
    A : torch.Tensor
        The 8-bit input tensor.
    code : torch.Tensor
        The quantization map.
    out : torch.Tensor
        The 32-bit output tensor.

    Returns
    -------
    torch.Tensor:
        32-bit output tensor.
    NrG  )rß   rD   r=   rR  rl   rÜ   r   Úcdequantizerd   rA   rT   rb   rà   r–  r   r   r   r“  _  s   
&r“  r‚   rƒ   Úoptimizer_nameÚgrª   Ústate1Úbeta1Úepsr  Úlrr  Úbeta2Úweight_decayÚgnorm_scaleÚ	unorm_vecÚ	max_unormc                 C   s>  d}|dkrt  |j ¡ ¡}d}|jt jkrt|  d }n.|jt jkr*t|  d }n!|jt jkr?t	t|  ƒdkr?t|  d }nt
d|j› d|j› ƒ‚t|||||gƒ t|jƒ}|t|ƒt|ƒt|ƒt|ƒt|ƒt |¡t |¡t |¡t |	¡t |¡t |
¡t |¡t |¡t |¡t |¡t | ¡ ¡ƒ t|ƒ dS )	a$  
    Performs an inplace optimizer update with one or two optimizer states.

    Universal optimizer update for 32-bit state and 32/16-bit gradients/weights.

    Parameters
    ----------
    optimizer_name : str
        The name of the optimizer: {adam}.
    g : torch.Tensor
        Gradient tensor.
    p : torch.Tensor
        Parameter tensor.
    state1 : torch.Tensor
        Optimizer state 1.
    beta1 : float
        Optimizer beta1.
    eps : float
        Optimizer epsilon.
    weight_decay : float
        Weight decay.
    step : int
        Current optimizer step.
    lr : float
        The learning rate.
    state2 : torch.Tensor
        Optimizer state 2.
    beta2 : float
        Optimizer beta2.
    gnorm_scale : float
        The factor to rescale the gradient to the max clip value.
    unorm_vec : torch.Tensor
        The tensor for the update norm.
    max_unorm : float
        The maximum update norm relative to the weight norm.
    skip_zeros : bool
        Whether to skip zero-valued gradients or not (default: False).
    r‚   Nr   r
   rñ   rI   úAGradient+optimizer bit data type combination not supported: grad ú, optimizer )r=   r   r¼   r4  rK   rl   Ústr2optimizer32bitr  rU  r¦   rê   rÜ   rß   rD   rd   rA   rn   re   Úc_boolrb   rà   )r˜  r™  rª   rš  r›  rœ  r  r  r  rž  rŸ  r   r¡  r¢  Ú
skip_zerosÚ
param_normÚ
optim_funcrE   r   r   r   Úoptimizer_update_32bit|  s@   8
ðrª  Úqmap1Úqmap2Úmax1Úmax2Únew_max1Únew_max2c                 C   sä  d}|dkrt  |j ¡ ¡}t|jƒ}t||||||
|||||gƒ |jt jkr|jt j	krt
|  d t|ƒt|ƒt|ƒt|ƒt|ƒt |¡t |¡t |¡t |¡t |¡t |¡t |	¡t|
ƒt|ƒt|ƒt|ƒt|ƒt|ƒt |¡t |¡t | ¡ ¡ƒ nk|jt jkrà|jt j	kràt
|  d t|ƒt|ƒt|ƒt|ƒt|ƒt |¡t |¡t |¡t |¡t |¡t |¡t |	¡t|
ƒt|ƒt|ƒt|ƒt|ƒt|ƒt |¡t |¡t | ¡ ¡ƒ ntd|j› d|j› ƒ‚t|ƒ dS )aŸ  
    Performs an inplace Adam update.

    Universal Adam update for 32/8-bit state and 32/16-bit gradients/weights.
    Uses AdamW formulation if weight decay > 0.0.

    Parameters
    ----------
    optimizer_name : str
        The name of the optimizer. Choices {adam, momentum}
    g : torch.Tensor
        Gradient tensor.
    p : torch.Tensor
        Parameter tensor.
    state1 : torch.Tensor
        Adam state 1.
    state2 : torch.Tensor
        Adam state 2.
    beta1 : float
        Adam beta1.
    beta2 : float
        Adam beta2.
    eps : float
        Adam epsilon.
    weight_decay : float
        Weight decay.
    step : int
        Current optimizer step.
    lr : float
        The learning rate.
    qmap1 : torch.Tensor
        Quantization map for first Adam state.
    qmap2 : torch.Tensor
        Quantization map for second Adam state.
    max1 : torch.Tensor
        Max value for first Adam state update.
    max2 : torch.Tensor
        Max value for second Adam state update.
    new_max1 : torch.Tensor
        Max value for the next Adam update of the first state.
    new_max2 : torch.Tensor
        Max value for the next Adam update of the second state.
    gnorm_scale : float
        The factor to rescale the gradient to the max clip value.
    unorm_vec : torch.Tensor
        The tensor for the update norm.
    max_unorm : float
        The maximum update norm relative to the weight norm.
    r‚   r   r
   r£  r¤  N)r=   r   r¼   r4  rß   rD   rÜ   rK   rl   ro   Ústr2optimizer8bitrd   rA   rn   re   rb   r  rê   rà   )r˜  r™  rª   rš  r  r›  rž  rœ  r  r  r«  r¬  r­  r®  r¯  r°  rŸ  r   r¡  r¢  r¨  rE   r   r   r   Úoptimizer_update_8bitÙ  sr   H

ë
ëÿr²  Úabsmax1Úabsmax2c                 C   sx  d }t |jƒ}t|||||
|||gƒ |jtjkr&|jtjkr&t|  d }n:|jtjkr9|jtjkr9t|  d }n'|jtj	krT|jtjkrTt
t|  ƒdkrTt|  d }ntd|j› d|j› ƒ‚t|ƒ t|||||
|||gƒ t |jƒ}|t|ƒt|ƒt|ƒt|ƒt |¡t |¡t |¡t |¡t |	¡t|
ƒt|ƒt|ƒt|ƒt |¡t |¡t |¡t | ¡ ¡ƒ t|ƒ d S )Nr   r
   rñ   rI   r£  r¤  )rß   rD   rÜ   rK   r=   rl   ro   Ústr2optimizer8bit_blockwiser  rU  r¦   rê   rà   rd   rA   rn   re   r¦  rb   )r˜  r™  rª   rš  r  r›  rž  rœ  r  r  r«  r¬  r³  r´  rŸ  r   r§  r©  rE   r   r   r   Úoptimizer_update_8bit_blockwise^  sH   
ÿ
ïr¶  ÚgradÚ	gnorm_vecÚ
percentilec           
   	   C   sè   t | jƒ}t| |gƒ | jtjkr&t t| ƒt|ƒt	 
|¡t	 
|  ¡ ¡¡ n$| jtjkrAt t| ƒt|ƒt	 
|¡t	 
|  ¡ ¡¡ n	td| j› dƒ‚t|ƒ t ||d  ¡}t |¡\}}t || ¡}d}	||kro|| }	|||	fS )a   Applies percentile clipping

    grad: torch.Tensor
        The gradient tensor.
    gnorm_vec: torch.Tensor
        Vector of gradient norms. 100 elements expected.
    step: int
        The current optimiation steps (number of past gradient norms).

    zGradient type z not supported!éd   rƒ   )rß   rD   rÜ   rK   r=   rl   r   Úcpercentile_clipping_g32rd   rA   re   rb   r  Úcpercentile_clipping_g16rê   rà   Úsqrtr•   )
r·  r¸  r  r¹  rE   Úcurrent_gnormÚvalsr  Ú
clip_valuer   r   r   r   Úpercentile_clippingš  s2   
üü
rÁ  Ú	histogramÚindex1Úindex2Úsourcec                 C   sè   t | jƒdks	J ‚| jtjksJ ‚|jtjksJ ‚|jtjks!J ‚|jtjks)J ‚| jjdks1J ‚|jjdks9J ‚|jjdksAJ ‚|jjdksIJ ‚t 	| jd ¡}t 	| 
¡ ¡}t| |||gƒ t t| ƒt|ƒt|ƒt|ƒ||¡ d S )NrI   r>   r   )r¦   rM   rK   r=   rl   Úint32rD   rÖ   rA   re   rb   rÜ   r   Úchistogram_scatter_add_2drd   )rÂ  rÃ  rÄ  rÅ  Úmaxdim1rå   r   r   r   Úhistogram_scatter_add_2dÆ  s   (rÉ  c              
   C   sÜ  t j ¡ s
t j ¡  | j|ks|j|kr td| j› d|j› ƒ‚| j}|j}|}|}	d}
t|ƒdkr|t|ƒdkr||sI|	sI| jd |jd krId}
nÚ|rZ|	sZ| jd |jd krZd}
nÉ|rk|	rk| jd |jd krkd}
n¸|s{|	r{| jd |jd kr{d}
n§t|ƒdkrÌt|ƒdkrÌ|s™|	s™| jd |jd kr™d}
nŠ|rª|	sª| jd |jd krªd}
ny|r»|	r»| jd |jd kr»d}
nh|sË|	rË| jd |jd krËd}
nWt|ƒdkr#t|ƒdkr#|së|	së| jd |jd krëd}
n8|rü|	sü| jd |jd krüd}
n'|r|	r| jd |jd krd}
n|s#|	r#| jd |jd kr#d}
|d urc|j}|
sbt|ƒdkrbt|ƒdkrb|d |d krb|d |d krb|d |d krb|d |d krbd}
nõt|ƒdkr­t|ƒdkr­|s€|	s€|d |d f}nØ|r|	r|d |d f}nÉ|rž|	sž|d |d f}nº|s¬|	r¬|d |d f}n«t|ƒdkrt|ƒdkr|sÍ|	sÍ|d |d |d f}n‹|rß|	rß|d |d |d f}ny|rñ|	sñ|d |d |d f}ng|s|	r|d |d |d f}nUt|ƒdkrXt|ƒdkrX|s#|	s#|d |d |d f}n5|r5|	r5|d |d |d f}n#|rG|	sG|d |d |d f}n|sX|	rX|d |d |d f}|
sltd	|› d
|› d|› d
|	› d	ƒ‚|S )Nz3Expected torch.int8 input tensors A and B, but got ú and TrI   r
   r   Frñ   z?Tensor dimensions incorrect for matrix mulitiplication: A x B: ú x z with transpose for A x B: r(  )	r=   r>   Úis_initializedÚinitrK   rØ   rM   r¦   rê   )rf   ru   r`   Útransposed_AÚtransposed_BÚexpected_typeÚsAÚsBÚtAÚtBÚcorrectÚsoutr   r   r   Úcheck_matmulÙ  s¤   ÿ€€""
"€€€ÿr×  ru   c                 C   sh  t | jƒ}|d u rtdƒ‚|  ¡ | jd krtdƒ‚|j}|d }|j}	|jr3t|j|jƒ}	|	|j	7 }	|d u rat
| jƒdkrRtj| jd | jd |f| j| jd}ntj| jd |f| j| jd}d}
|d }|d }|d }|d }| jd d d }t|| ||	|jgƒ t |¡}t |
¡}
t |¡}t |¡}t |¡}t |¡}|jtjkr&| jtjkrÑt ||
|t| ƒt|ƒt|	ƒt|jƒt|ƒ|||t |j¡¡ n]| jtjkr÷t ||
|t| ƒt|ƒt|	ƒt|jƒt|ƒ|||t |j¡¡ n7| jtjkrt ||
|t| ƒt|ƒt|	ƒt|jƒt|ƒ|||t |j¡¡ ntd	| j› ƒ‚td	| j› ƒ‚t|ƒ |S )
NzGstate cannot None. gem_4bit( ) requires the state from quantize_4bit( )r0   zcDimensions of A are invalid. Must be a vector with the leading dimensions of "1", e.g. [1, 1, 2048]r   rñ   r
   ©ÚsizerK   rD   rI   z%Matmul not implemented for data type )rß   rD   rê   rb   rM   r  r   ra  r  r—   r¦   r=   rb  rK   rÜ   rµ   rA   re   ro   r  r   Úcgemm_4bit_inference_naive_fp16rd   r  rU  Úcgemm_4bit_inference_naive_bf16rl   Úcgemm_4bit_inference_naive_fp32rq   rà   )rf   ru   r`   rÎ  rÏ  rü   rE   ÚBshapeÚboutr  rå   Úmr'  ÚldaÚldcÚldbr   r   r   Ú	gemv_4bit2  sN   

(


@@@rã  c                 C   sv  t | ||||ƒ}|d u rtj|tj| jd}t| jƒdkr>t|jƒdkr>| jd |jd kr>| jd |jd kr>t| ||ƒS | j}|j}|rUt|ƒdkrU|d |d f}n|rht|ƒdkrh|d |d |d f}|ryt|ƒdkry|d |d f}n|rŒt|ƒdkrŒ|d |d |d f}t|ƒdkr4| ¡ d |jd kr¡d}n| ¡ d |jd kr®d}t| jƒdkrÑ|  ¡ d | jd krÃd}n)|  ¡ d | jd krÐd}n|  ¡ d | jd krßd}n|  ¡ d | jd krìd}t|ƒdkr|d }|  ¡ |rþdnd }	nt|ƒdkrt|ƒdkr|d |d  }|d }	|d }
|d }| ¡ |r,dnd }|d }nHt|ƒdkr|t|ƒdksDJ ‚|d |d krV|d |d ks`t	d|› d	|› ƒ‚d}d}|d }
|d }|d |d  }|
}|d }	|
}t
 ¡  | j¡}t|| |gƒ t |t |¡t |¡t |
¡t |¡t |¡t|ƒt| ƒt|ƒt |¡t |	¡t |¡¡ |S )
NrØ  rñ   r   rI   r
   FTzMOnly bsi,bso->io supported for tensor contractions, but dims for A x B were: rË  )r×  r=   rõ   rÆ  rD   r¦   rM   Úbatched_igemmÚstriderê   r:   r.   rC   rÜ   r   ÚcigemmrA   r¦  re   rd   )rf   ru   r`   rÎ  rÏ  rÖ  rÑ  rÒ  rå   râ  rß  r'  rà  rá  r  r   r   r   Úigemmn  sz   (
€
$ÿ.*ÿrç  c                 C   s¶  t | jƒdkrt |jƒdkstd| j› d|j› ƒ‚t| ||||ƒ}|d u r0tj|tj| jd}| ¡ r=| 	¡ d }d}nV| 	¡ }|d |jd krU| 
¡ }| 	¡ d }n>|d |jd krgd	}| 	¡ d }n,|d dkrx| 
¡ }| 	¡ d }n|d dkr‰| 
¡ }| 	¡ d }n
| 
¡ }| 	¡ d }|  ¡ r |  	¡ d }d}n8|  	¡ }|d | jd krº|  
¡ } |  	¡ d }d}n|d | jd krÌ|  	¡ d }d	}n|  
¡ } |  	¡ d }d}| jd }	| jd }
|jd }|jd }|}|jd |jd  }| jd | jd  }| jd |jd  }t ¡  | j¡}t|| |gƒ t |t |¡t |¡t |¡t |
¡t |¡t|ƒt| ƒt|ƒt |¡t |¡t |¡t |¡t |¡t |¡t |	¡¡ |S )
Nrñ   z@Expected 3-dimensional tensors for bmm, but got shapes A and B: rÊ  rØ  r
   Fr   rI   T)r¦   rM   rê   r×  r=   rõ   rÆ  rD   Úis_contiguousrå  Ú
contiguousr:   r.   rC   rÜ   r   Úcbatched_igemmrA   r¦  re   rd   Úc_longÚc_uint32)rf   ru   r`   rÎ  rÏ  rÖ  rà  Úsrâ  Ú	num_batchrå   rß  r'  rá  ÚstrideAÚstrideBÚstrideCr  r   r   r   rä  Ç  sl   ÿ


.* þrä  c                 C   sø  |d }|d }t |ƒ}	t |ƒ}
|
dksJ dƒ‚|	dkr!|d }n|	dkr-|d |d  }|d  }}tt|ƒƒdksBJ d|› ƒ‚|d dkrZ|	dkrZtjd|d f| jtjdS |d dkry|	dkrytjt|d d… |d g ƒ| jtjdS |	dkr“|d u r“t|d |d f|| jdd	ƒ\}}n|	dkr¯|d u r¯t|d |d |d f|| jdd	ƒ\}}|
dks·J d
ƒ‚| jj	dks¿J ‚|jj	dksÇJ ‚| j
tjksÏJ ‚|j
tjks×J ‚|j
|ksÞJ ‚|d dksæJ ‚|d dv sîJ ‚|d dksöJ ‚|d |d ks	J d|› d|› ƒ‚|d }| j}tj | j¡ t ¡  | j¡}t| ƒ}t|ƒ}t|ƒ}|d }t |d ¡}|dkrIt |d d d d ¡}nt |d d d d ¡}t |d ¡}t |¡}t |¡}t |¡}d}td ƒ}t| ||gƒ |dkr¤|tjkr”t |||||||||||¡}n:t |||||||||||¡}n*|dkrÎ|tjkr¿t |||||||||||¡}nt |||||||||||¡}|dkròtd|› d|› d|d › d|||f› d|||f› 
ƒ tdƒ‚tj |¡ ||fS )Nr   rI   z:Only two dimensional matrices are supported for argument Brñ   r
   z(Input tensor dimensions need to be > 0: rF  ró   rð   zlen(B.shape)==3 not supportedr>   ©rÈ   rÉ   r0   zNMatmullt only supports A @ B^T. Inner matrix dimensions do not match: A @ B = z @ râ   rÈ   r·   r€   rô   rÉ   zA: z, B: z, C: z; (lda, ldb, ldc): z; (m, n, k): zcublasLt ran into an error!)r¦   r   r£   r=   rb  rD   r  r;  rþ   rÖ   rK   rç   r>   r@   r:   r.   rC   rd   rA   re   rÜ   rÆ  r   Úcigemmlt_turing_32Úcigemmlt_turing_8Úcigemmlt_ampere_32Úcigemmlt_ampere_8ré   Ú	Exception)rf   ru   ÚSAÚSBr`   ÚSoutrK   ÚshapeAÚshapeBÚdimsAÚdimsBrß  rú   rå   ÚformatBrE   r  ÚptrAÚptrBÚptrCr'  rà  râ  rá  Ú	has_errorÚptrRowScaler   r   r   Úigemmlt  s–   
*
ÿÿÿ




ÿÿ
ÿÿ
6r  c                 C   sž  | j tjksJ ‚|d ur|j tjksJ ‚|d }t|ƒdkr*|d |d  |d f}|d u r8tj|tj| jd}|d u rHtj|d tj| jd}|d u rXtj|d tj| jd}|jd |jd ksmJ |j› d|j› ƒ‚|jd |jd ks‚J |j› d|j› ƒ‚t	| jƒ}	t
| ƒ}
t
|ƒ}t
|ƒ}t
|ƒ}t
|ƒ}t
|ƒ}t
|ƒ}t |d ¡}t |d ¡}t| ||||||gƒ t |
||||||||¡	 t|	ƒ |S )Nr   rñ   r
   rI   rJ   ú vs )rK   r=   rÆ  r  r¦   rb  rD   rl   rM   rß   rd   rA   re   rÜ   r   Úcdequant_mm_int32_fp16rà   )rf   r  Ú	row_statsÚ	col_statsr`   Únew_row_statsÚnew_col_statsr±   Ú	out_shaperE   r   ÚptrOutÚptrRowStatsÚptrColStatsÚptrNewRowStatsÚptrNewColStatsÚptrBiasÚnumRowsÚnumColsr   r   r   Ú
mm_dequant{  sF   
ÿÿÿÿ
r  c              	   C   sh  | j tjksJ ‚| j}| jd }t| jƒdkr"| jd | jd  }n| jd }|d d }|d d d }	|d u rFtj|ftj|d	 d
¡}|d u rWtj|ftj|d	 d
¡}|d u rm|dkrmtj	|	| d ftj
|d	}t| ƒ}
t|ƒ}t|ƒ}t|ƒ}t |¡}t |¡}t| jƒ}t| |||gƒ t |
|||t |¡||¡ t|ƒ |dkr¯| d¡ |||fS )Nr0   rñ   r   r
   r  r„   é   rn  rJ   g     jèÀr‚   )rK   r=   r  rD   rM   r¦   rb  rl   Úfill_rõ   rÆ  rd   rA   re   rß   rÜ   r   Úcget_col_row_statsrn   rà   Úcumsum_)rf   r  r	  Únnz_block_ptrÚ	thresholdrD   rû   rú   Ú	col_tilesÚ
tiled_rowsr   r  r  Ú
ptrNnzrowsrE   r   r   r   Úget_colrow_absmax®  sJ   


ÿþ
ÿþÿ




r  c                   @   ó   e Zd Zdd„ ZdS )ÚCOOSparseTensorc                 C   sˆ   |j tjksJ ‚|j tjksJ ‚|j tjksJ ‚| ¡ |ks J ‚| ¡ |ks(J ‚| ¡ |ks0J ‚|| _|| _|| _|| _|| _	|| _
d S r$   )rK   r=   rÆ  r  rb   rú   rû   ÚnnzÚrowidxÚcolidxrŒ   )r!   rú   rû   r"  r#  r$  rŒ   r   r   r   r"   Ý  s   
zCOOSparseTensor.__init__N©r6   r7   r8   r"   r   r   r   r   r!  Ü  ó    r!  c                   @   r   )ÚCSRSparseTensorc                 C   sŒ   |j tjksJ ‚|j tjksJ ‚|j tjksJ ‚| ¡ |ks J ‚| ¡ |ks(J ‚| ¡ |d ks2J ‚|| _|| _|| _|| _|| _	|| _
d S r   )rK   r=   rÆ  r  rb   rú   rû   r"  Úrowptrr$  rŒ   )r!   rú   rû   r"  r(  r$  rŒ   r   r   r   r"   î  ó   
zCSRSparseTensor.__init__Nr%  r   r   r   r   r'  í  r&  r'  c                   @   r   )ÚCSCSparseTensorc                 C   sŒ   |j tjksJ ‚|j tjksJ ‚|j tjksJ ‚| ¡ |ks J ‚| ¡ |ks(J ‚| ¡ |d ks2J ‚|| _|| _|| _|| _|| _	|| _
d S r   )rK   r=   rÆ  r  rb   rú   rû   r"  Úcolptrr#  rŒ   )r!   rú   rû   r"  r+  r#  rŒ   r   r   r   r"   ÿ  r)  zCSCSparseTensor.__init__Nr%  r   r   r   r   r*  þ  r&  r*  c                 C   sz   t j| jdd\}}| d¡ t j| jd ft j| jjd}|j| 	¡ | 
¡ dd | d¡ t| j| j| j|| j| jƒS ©NT©Úreturn_countsr
   rJ   r   )r<   ÚsrcÚdim)r=   Úuniquer#  Úadd_rõ   rú   rÆ  rD   Úscatter_r  rº   r  r'  rû   r"  r$  rŒ   )ÚcooArŒ   Úcountsr(  r   r   r   Úcoo2csr  s   
ÿ
ÿr6  c                 C   s˜   t  | j¡\}}| j| }| j| }t j|dd\}}| d¡ t j| jd ft j	| jj
d}|j| ¡ | ¡ dd | d¡ t| j| j| j|||ƒS r,  )r=   r•   r$  r#  rŒ   r1  r2  rõ   rû   rÆ  rD   r3  r  rº   r  r*  rú   r"  )r4  r¯   Ú
col2rowidxr#  rŒ   Ú	colvaluesr5  r+  r   r   r   Úcoo2csc  s   


ÿ
ÿr9  c                 C   sL   t j|ft j|d}t j|ft j|d}t j|f||d}t| |||||ƒS )NrJ   )r=   rõ   rÆ  r!  )rú   rû   r"  rD   rK   r#  r$  rŒ   r   r   r   Ú	coo_zeros,  s   r:  c                 C   s@  | j }| jtjksJ ‚|jdksJ ‚t| j ƒ}| jd }t| jƒdkr.| jd | jd  }	n| jd }	|d u s;|d u rDt| |d\}}}
|d u rRtj	| j|tj
d}|d u r`tj	| j|tj
d}d }t| ƒ}t|ƒ}t|ƒ}t|ƒ}t|ƒ}t| ||||gƒ |dkrü|
d  ¡ }|dkrât| jd | jd |
d  ¡ |ƒ}t|jƒ}t|jƒ}t|jƒ}t|
ƒ}t |||||||||t |¡t |	¡t |¡¡ t |j¡\}}||_|j| |_|j| |_n3t |||||d d d d t d¡t |	¡t |¡¡ nt |||||d d d d t |¡t |	¡t |¡¡ t|ƒ |||||fS )	Nr>   r0   rñ   r   r
   )r  rF  r‚   )rD   rK   r=   ÚhalfrÖ   rß   rM   r¦   r  rõ   rç   rd   rÜ   r=  r:  r#  r$  rŒ   r   Úcdouble_rowcol_quantrA   rn   re   r•   rà   )rf   r	  r  Úout_colÚout_rowr  rD   rE   rû   rú   Únnz_row_ptrÚ
coo_tensorr   r  r  Ú	ptrOutColÚ	ptrOutRowr"  Ú	ptrRowIdxÚ	ptrColIdxÚptrValÚ	ptrRowPtrr¯   r  r   r   r   Údouble_quant3  s¢   


ÿÿ


ôôôrG  c                 C   sð  t | jƒ}|d u r| j|f}n|d }|d u r)t|d | j| j||d |ƒ\}}n|d |f}|d }	t|	ƒdkrHt |	d ¡}
t |	d ¡}nt |	d |	d  ¡}
t |	d ¡}t| |gƒ |dkr€|rst	 
t| ƒt|ƒ|
|¡ n}t	 t| ƒt|ƒ|
|¡ np|dkr |r“t	 t| ƒt|ƒ|
|¡ n]t	 t| ƒt|ƒ|
|¡ nP|dkrÀ|r³t	 t| ƒt|ƒ|
|¡ n=t	 t| ƒt|ƒ|
|¡ n0|dkræ|dkrÕt	 t| ƒt|ƒ|
|¡ n|dkråt	 t| ƒt|ƒ|
|¡ n
td|› d	|› ƒ‚t|ƒ ||fS )
Nr
   r   rI   ró   rÈ   rÉ   rð   z)Transform function not implemented: From ræ   )rß   rD   rM   rþ   rK   r¦   rA   re   rÜ   r   Úctransform_row2col32Trd   Úctransform_row2col32Úctransform_row2turingTÚctransform_row2turingÚctransform_row2ampereTÚctransform_row2ampereÚctransform_turing2rowÚctransform_ampere2rowrq   rà   )rf   rö   r÷   r`   rí   rü   rÿ   rE   r   rM   r  r  r   r   r   Ú	transform“  sB   
,€rP  c                 C   sj  |d u rt j| j|jd f|j|jd}| j}| j ¡ |ks J ‚| j	 ¡ |ks)J ‚| j
 ¡ |ks2J ‚| j|jd ks<J ‚| ¡ rBdnd}| ¡ |rKdnd }|jd }t ¡ j}t| jƒ}t| j	ƒ}	t| j
ƒ}
t|ƒ}t|ƒ}t | j¡}t | j¡}t | j¡}t |jd ¡}t |¡}t |¡}t| j| j	| j
||gƒ t |||	|
||||||||t |¡¡ |S )Nr
   rF  r   FT)r=   rb  rú   rM   rD   rK   r"  r#  rb   r$  rŒ   rû   rè  rå  rF   r.   r;   rd   rA   re   rÜ   r   Ú	cspmm_coor¦  )r4  ru   r`   r"  rÏ  râ  rá  r  Ú	ptrRowidxÚ	ptrColidxÚ	ptrValuesr  r  ÚcnnzÚcrowsAÚccolsAÚccolsBÚcldbÚcldcr   r   r   Úspmm_coo¿  s6   ÿ




(r[  c                 C   s~  |d u rt j| j|jd f|j| jjd}| j}t|jƒ}| j	 
¡ |ks&J ‚| j 
¡ |ks/J ‚| j 
¡ |ks8J ‚| j|jd ksKJ | j› d|j› ƒ‚| ¡ rQdnd}| ¡ |rZdnd }|jd }t j| j	dd\}	}
|
 d¡ ¡ }t j|
dd\}}| ¡ }| ¡ }|d d	ks”J d
|d › dƒ‚|jt jt jfv sŸJ ‚t|ƒ}t|ƒ}t|ƒ}t| j	ƒ}t| jƒ}t| jƒ}t|ƒ}t|ƒ}t|ƒ}t |
 
¡ ¡}t | j¡}t | j¡}t | j¡}t |jd ¡}t |jd ¡}t |¡}t |¡}t| j	| j| j|||gƒ |jt jkr t ||||||||||||||¡ n|jt jkr9t ||||||||||||||¡ t|ƒ |S )Nr
   rF  r   r  FTr-  )Ú
descendingrâ   z)Current max count per row is 8 but found r(  )r=   rõ   rú   rM   rD   rŒ   rK   r"  rß   r#  rb   r$  rû   rè  rå  r1  Úcumsumrº   r•   r  rç   rd   rA   re   rÜ   r   Ú cspmm_coo_very_sparse_naive_fp16Ú cspmm_coo_very_sparse_naive_int8rà   )r4  ru   Údequant_statsr`   r"  rE   rÏ  râ  rá  rŒ   r5  r—   Ú	max_countÚmax_idxÚ	ptrOffsetÚptrMaxCountÚ	ptrMaxIdxrR  rS  rT  r  r  ÚptrDequantStatsÚ	cnnz_rowsrU  rV  rW  ÚcrowsBrX  rY  rZ  r   r   r   Úspmm_coo_very_sparseã  s˜   ÿ
&
ÿ




òòri  g     À_@Úvectorc                 C   s$  |dkrt  | ¡ ¡  ¡ }t  | | d ¡ t j¡}||fS |dv r>t jt  | ¡|dd}t  | t|  ¡ t j¡}||fS |dkru| j	}|  ¡ } |  ¡ |  
¡  }|dkrWd}d	| }|  
¡ }t  || ¡}	t  ||  |	 ¡|	 } | |fS |d
v r¸| j	}|  ¡ } t j| |ddt j| |dd }d||dk< d	| }t j| |dd}t  || ¡}	t  ||  |	 ¡|	 } | |fS |dkrt  ¡ B t  | ¡}
t j|
|dd}|d }|
| |
¡k}t  | | ¡}| |
¡| | | |< t  | | t ¡ t j¡}W d   ƒ ||fS 1 sw   Y  ||fS d S )NÚlinearé   )rj  rð   T)r0  ÚkeepdimÚ	zeropointr   r
   g     ào@)úvector-zeropointúrow-zeropointútruncated-vectorgffffffæ?)r=   rÅ   r–   r4  r
  r  rç   ÚamaxÚCrK   ÚminÚaminÚno_gradÚ	expand_asrŠ   )r  r0  r  r­  ÚxqrK   ÚdynaÚqxÚminxÚzpxÚabsxr  rŠ   r   r   r   Úvectorwise_quant<	  sZ   ÿ



ùør~  c                 C   s$   |dkr| t  |  tj¡}|S d S )Nrj  )rs  r  r=   rl   )rx  r­  r  r  r   r   r   Úvectorwise_dequantj	  s   r  c                 C   sÌ  |dkr|| t t   }|  ¡ |  |¡S |dkr(d||  }|  ¡ |  |¡S |dkrqd||  }|  ¡ }t|jƒdkrIt|jƒdkrI| d¡}t|jƒdkr\t|jƒdkr\| d¡}t|jƒdkrh||9 }n||9 }| |¡S |dkrÀ|  ¡ }t|jƒdkrŒt|jƒdkrŒ| d¡}t|jƒdkrŸt|jƒdkrŸ| d¡}t|jƒdkr­|d| 9 }n|d| 9 }|d| ¡  9 }| |¡S |d	kr|  ¡ }t|jƒdkrÜt|jƒdkrÜ| d¡}t|jƒdkrït|jƒdkrï| d¡}t|jƒdkr||| t t   9 }n
||| t t   9 }| |¡S |d
v rd|  ¡ }t|jƒdkr/t|jƒdkr/| d¡}t|jƒdkrDt|jƒdkrD| d¡}t|jƒdkrS||t  9 }n||t  9 }||t  9 }| |¡S d S )Nrk  rn  rƒ   rp  rñ   rI   r   ro  rð   )rq  rj  )rs  r4  r  r¦   rM   Úsqueezer3   )rx  ÚS1ÚS2rK   r  r   r  r   r   r   Úvectorwise_mm_dequantr	  sd   











 
 

rƒ  c                 C   sž   |  ¡  ¡  d¡|d |d   }|   ¡ }t| jƒdkr(t|jƒdkr(| d¡}t|jƒdkr8|| ¡ d 9 }n||d 9 }||d d 9 }||7 }| |¡S )Nr   r
   rI   rñ   rl  )r4  r3   Úsumr¦   rM   r€  r  )rx  rf   ru   rø  rù  rK   r—   r  r   r   r   Údequant_min_max­	  s   "

r…  c                 C   sÞ   |d }|d }|dv sJ ‚| j jdksJ ‚tj|d | ¡ ftj| j d}t | ¡ ¡}t |d ¡}t |d ¡}t| ƒ}	t|ƒ}
t|ƒ}t	| j ƒ}|dkr[t
 |	|
||||¡ n|dkrit
 |	|
||||¡ t|ƒ |S )Nr   r
   rò  r>   rJ   rÈ   rÉ   )rD   rÖ   r=   rõ   rb   rç   rA   re   rd   rß   r   ÚcextractOutliers_turingÚcextractOutliers_ampererà   )rf   rø  r  rû  ÚformatAr`   Úidx_sizerú   rû   r   ÚptrIdxr  rE   r   r   r   Úextract_outliers»	  s(   ÿ
r‹  c                 C   s6   t  | ¡}t t| ƒt|ƒt |  ¡ ¡t |¡¡ |S r$   )r=   rR  r   Úcpipeline_testrd   rA   rQ   rb   )rf   Ú
batch_sizer`   r   r   r   Úpipeline_testÕ	  s   
(rŽ  r5   )T)NTr$   )Tr€   T)r   T)Trž   rI   r€   )Tr·   r€   )r€   )rð   F)rð   NFNN)Nr  r„   )NNNrD  F)NNNNrD  F)NrN  )NNrN  F)NNrN  Fr  )NNNrN  )NNNrN  r  r+  )NNNN)Nr‚   r‚   rƒ   Nr‚   F)r‚   rƒ   Nr‚   )r‚   rƒ   F)rž   )NFFN)NFF)NNNr‚   )NNNNr‚   )r
   rj  )rj  )ŒÚctypesrA   r¤   r   Úrandomr=   ÚmathÚscipy.statsr   ÚnumpyrU   Ú	functoolsr   Útypingr   r   r   r   Úbitsandbytes.utilsr   r	   Ú
cextensionr   r   r   rQ  r¥  Úcadam32bit_grad_fp32Úcadam32bit_grad_fp16Úcadam32bit_grad_bf16Úcmomentum32bit_grad_32Úcmomentum32bit_grad_16Úcrmsprop32bit_grad_32Úcrmsprop32bit_grad_16Úclion32bit_grad_fp32Úclion32bit_grad_fp16Úclion32bit_grad_bf16Úcadagrad32bit_grad_32Úcadagrad32bit_grad_16r±  Úcadam_static_8bit_grad_32Úcadam_static_8bit_grad_16Úcmomentum_static_8bit_grad_32Úcmomentum_static_8bit_grad_16Úcrmsprop_static_8bit_grad_32Úcrmsprop_static_8bit_grad_16Úclion_static_8bit_grad_32Úclion_static_8bit_grad_16rµ  Úcadam_8bit_blockwise_grad_fp32Úcadam_8bit_blockwise_grad_fp16Úcadam_8bit_blockwise_grad_bf16Ú"cmomentum_8bit_blockwise_grad_fp32Ú"cmomentum_8bit_blockwise_grad_fp16Ú!crmsprop_8bit_blockwise_grad_fp32Ú!crmsprop_8bit_blockwise_grad_fp16Úclion_8bit_blockwise_grad_fp32Úclion_8bit_blockwise_grad_fp16Úclion_8bit_blockwise_grad_bf16Ú!cadagrad_8bit_blockwise_grad_fp32Ú!cadagrad_8bit_blockwise_grad_fp16r   r:   rF   rO   rl   r  rU  ro   rç   rD   ra   r1   rz   r{   r~   r   r   r   r¶   rÂ   rÇ   rÎ   rÜ   rB   rd   rß   rà   rï   rþ   r  r4  rÄ   r  rZ  rº   ra  rp  rw  rz  rt  r‡  rˆ  r…  r’  r”  r  r“  r9  rª  r²  r¶  rÁ  rÉ  r×  rã  rç  rä  rÆ  r  r  r  r!  r'  r*  r6  r9  r;  r:  rG  rP  r[  ri  rs  r~  r  rƒ  r…  r‹  rŽ  r   r   r   r   Ú<module>   sÂ  þþþþþþþþþýþþýþ










.
2

ÿ,
ù(6 wKùÿþýüûú
ø
I3$P$$Mûÿ
þýüû
ú&ñÿþýüûúùø	÷
öõôóò
ðnìÿþýüûúùø	÷
öõôóòñðïîíì
ë ïÿþýüûúùø	÷
öõôóòñð
î=ÿÿÿÿ
ÿ,ÿÿÿ
ÿ\úÿþ
ý?ûÿþ
ý\ûÿþ
ýSf
ø4
ÿ.
ÿ
`
,
$V

.;