DataWhizmadaan
/

CNN

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.lz4 filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
+# Audio files - uncompressed
+*.pcm filter=lfs diff=lfs merge=lfs -text
+*.sam filter=lfs diff=lfs merge=lfs -text
+*.raw filter=lfs diff=lfs merge=lfs -text
+# Audio files - compressed
+*.aac filter=lfs diff=lfs merge=lfs -text
+*.flac filter=lfs diff=lfs merge=lfs -text
+*.mp3 filter=lfs diff=lfs merge=lfs -text
+*.ogg filter=lfs diff=lfs merge=lfs -text
+*.wav filter=lfs diff=lfs merge=lfs -text
+# Image files - uncompressed
+*.bmp filter=lfs diff=lfs merge=lfs -text
+*.gif filter=lfs diff=lfs merge=lfs -text
+*.png filter=lfs diff=lfs merge=lfs -text
+*.tiff filter=lfs diff=lfs merge=lfs -text
+# Image files - compressed
+*.jpg filter=lfs diff=lfs merge=lfs -text
+*.jpeg filter=lfs diff=lfs merge=lfs -text
+*.webp filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,32 @@

+---
+tags:
+- text-to-image
+- stable-diffusion
+- lora
+- diffusers
+- template:sd-lora
+widget:
+- text: '-'
+  output:
+    url: images/animation.gif
+base_model: stabilityai/stable-diffusion-xl-base-1.0
+instance_prompt: Images
+license: apache-2.0
+---
+# Lip-Reader
+<Gallery />
+## Model description
+This research presents an advanced deep learning model for lip reading, utilizing convolutional neural networks (CNNs) and long short-term memory (LSTM) networks to process video frames and predict text transcriptions by mapping lip movements to character sequences. The current implementation shows promising results, yet there is significant potential for expansion and enhancement to create a robust, multi-lingual, and real-time lip-reading solution. The methodology includes extracting and preprocessing video frames and text transcriptions, constructing a TensorFlow data pipeline, and defining a deep neural network architecture. CNNs are employed for feature extraction from video frames, while Bidirectional LSTMs handle the sequence modeling of character predictions. Training utilizes a custom Connectionist Temporal Classification (CTC) loss function, particularly suited for sequence-to-sequence problems like lip reading. The model’s performance is evaluated on test sets and new video files by comparing predictions with ground truth text transcriptions. The current implementation highlights a robust architecture combining CNNs and LSTMs and employs a custom CTC loss function tailored for sequence-to-sequence tasks. It also features an efficient and scalable data pipeline for data loading and preprocessing, accompanied by a well-documented codebase.
+## Trigger words
+You should use `Images` to trigger the image generation.
+## Download model
+[Download](/DataWhizmadaan/CNN/tree/main) them in the Files & versions tab.