Spaces:

sairamn
/

movie-recommendation-system

Sleeping

App Files Files Community

sairamn commited on Aug 24, 2024

Commit

36dc14c

•

1 Parent(s): 8af8121

Changed Files for Adding Streamlit app for movie recommendation

Browse files

Files changed (2) hide show

app.py +21 -23
requirements.txt +2 -3

app.py CHANGED Viewed

@@ -4,18 +4,20 @@ import pandas as pd
 from sklearn.feature_extraction.text import TfidfVectorizer
 from sklearn.metrics.pairwise import cosine_similarity
 import numpy as np
-import ipywidgets as widgets
-from IPython.display import display
 # Google Drive file IDs
 movies_file_id = "1HWlVK-nXM5JG4GfSDHyR-x8T1AlfQQYw"
 ratings_file_id = "1V2s1rpu4Gfjbt8z2a1Xml9IJr5KSozK1"
 # Download the files if they don't exist
 def download_file_from_google_drive(file_id, output):
     url = f"https://drive.google.com/uc?id={file_id}"
     gdown.download(url, output, quiet=False)
 if not os.path.exists("movies.csv"):
     download_file_from_google_drive(movies_file_id, "movies.csv")
@@ -26,18 +28,20 @@ if not os.path.exists("ratings.csv"):
 movies = pd.read_csv("movies.csv")
 ratings = pd.read_csv("ratings.csv")
 # Clean movie titles
-import re
 def clean_title(title):
     title = re.sub("[^a-zA-Z0-9 ]", "", title)
     return title
 movies["clean_title"] = movies["title"].apply(clean_title)
 # Vectorize the titles
 vectorizer = TfidfVectorizer(ngram_range=(1, 2))
 tfidf = vectorizer.fit_transform(movies["clean_title"])
 # Function to search for movies
 def search(title):
     title = clean_title(title)
@@ -45,9 +49,9 @@ def search(title):
     similarity = cosine_similarity(query_vec, tfidf).flatten()
     indices = np.argpartition(similarity, -5)[-5:]
     results = movies.iloc[indices].iloc[::-1]
     return results
 # Function to find similar movies
 def find_similar_movies(movie_id):
     similar_users = ratings[(ratings["movieId"] == movie_id) & (ratings["rating"] > 4)]["userId"].unique()
@@ -65,24 +69,18 @@ def find_similar_movies(movie_id):
     return rec_percentages.head(10).merge(movies, left_index=True, right_on="movieId")[["score", "title", "genres"]]
-# Widgets for the UI
-movie_name_input = widgets.Text(
-    value='Toy Story',
-    description='Movie Title:',
-    disabled=False
-)
-recommendation_list = widgets.Output()
-def on_type(data):
-    with recommendation_list:
-        recommendation_list.clear_output()
-        title = data["new"]
-        if len(title) > 5:
-            results = search(title)
-            movie_id = results.iloc[0]["movieId"]
-            display(find_similar_movies(movie_id))
-movie_name_input.observe(on_type, names='value')
-# Display the widgets
-display(movie_name_input, recommendation_list)

 from sklearn.feature_extraction.text import TfidfVectorizer
 from sklearn.metrics.pairwise import cosine_similarity
 import numpy as np
+import re
+import streamlit as st
 # Google Drive file IDs
 movies_file_id = "1HWlVK-nXM5JG4GfSDHyR-x8T1AlfQQYw"
 ratings_file_id = "1V2s1rpu4Gfjbt8z2a1Xml9IJr5KSozK1"
 # Download the files if they don't exist
 def download_file_from_google_drive(file_id, output):
     url = f"https://drive.google.com/uc?id={file_id}"
     gdown.download(url, output, quiet=False)
 if not os.path.exists("movies.csv"):
     download_file_from_google_drive(movies_file_id, "movies.csv")
 movies = pd.read_csv("movies.csv")
 ratings = pd.read_csv("ratings.csv")
 # Clean movie titles
 def clean_title(title):
     title = re.sub("[^a-zA-Z0-9 ]", "", title)
     return title
 movies["clean_title"] = movies["title"].apply(clean_title)
 # Vectorize the titles
 vectorizer = TfidfVectorizer(ngram_range=(1, 2))
 tfidf = vectorizer.fit_transform(movies["clean_title"])
 # Function to search for movies
 def search(title):
     title = clean_title(title)
     similarity = cosine_similarity(query_vec, tfidf).flatten()
     indices = np.argpartition(similarity, -5)[-5:]
     results = movies.iloc[indices].iloc[::-1]
     return results
 # Function to find similar movies
 def find_similar_movies(movie_id):
     similar_users = ratings[(ratings["movieId"] == movie_id) & (ratings["rating"] > 4)]["userId"].unique()
     return rec_percentages.head(10).merge(movies, left_index=True, right_on="movieId")[["score", "title", "genres"]]
+# Streamlit UI
+st.title("Movie Recommendation System")
+movie_name = st.text_input("Enter a movie title", "Toy Story")
+if len(movie_name) > 5:
+    results = search(movie_name)
+    if not results.empty:
+        movie_id = results.iloc[0]["movieId"]
+        st.write(f"Top recommendations based on '{results.iloc[0]['title']}':")
+        recommendations = find_similar_movies(movie_id)
+        for index, row in recommendations.iterrows():
+            st.write(f"{row['title']} ({row['genres']}) - Score: {row['score']:.2f}")
+    else:
+        st.write("No movies found. Please try a different title.")

requirements.txt CHANGED Viewed

@@ -1,5 +1,4 @@
-streamlit
 pandas
 scikit-learn
-numpy
-gdown

+gdown
 pandas
 scikit-learn
+streamlit